翟红敏
- 作品数:2 被引量:4H指数:1
- 供职机构:东华大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- MapReduce中连接负载均衡优化研究被引量:4
- 2014年
- 数据分析和处理是大规模分布式数据处理应用中的重要任务。由于简单易用和具有灵活性,MapReduce编程模型逐渐成为大规模分布式数据处理系统(如Hadoop系统)的核心模型。由于所处理的数据可能不是均匀分布的,MapReduce编程模型在处理连接操作时,会出现数据倾斜问题。数据倾斜问题严重降低了MapReduce执行连接操作的效率。针对MapReduce中连接操作的数据倾斜问题,分析了造成MapReduce连接性能瓶颈的原因并建立负载均衡代价模型,提出了用范围分割方法控制连接过程中的数据倾斜问题实现负载均衡的策略。实验结果表明,所提方法明显提高了连接的效率。
- 翟红敏刘国华赵威刘源源翟红坤
- 关键词:MAPREDUCE负载均衡
- k-匿名数据上的聚集查询及其性质
- 2014年
- k-匿名数据中存在大量的有用信息,如何从k-匿名数据中得到有用的知识是目前亟待解决的问题。OLAP是知识发现的主要手段,聚集查询是OLAP的关键操作。为了解决k-匿名数据聚集查询问题,首先,给出了描述k-匿名数据的数据模型。其次,将聚集查询分为两个阶段,在第一阶段,给出k-匿名数据满足的性质和独立属性集的概念,利用k-匿名的性质和独立属性集给出求解满足查询约束的值和概率集合的算法,并将该集合作为第二阶段的输入。在第二阶段,给出聚集查询的语义。为了满足用户不同的查询需求,给出WITH子句约束及不同WITH子句约束的语义,作为聚集查询的第一阶段的补充。最后,讨论了聚集查询的性质,并用实验验证了查询的有效性。
- 张君宝刘国华王碧颖王梅王羽婷石丹妮翟红敏
- 关键词:数据共享OLAP隐私保护K-匿名聚集查询