周婷
- 作品数:1 被引量:24H指数:1
- 供职机构:同济大学电子与信息工程学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Hadoop的K-means聚类算法的实现被引量:24
- 2013年
- 文中针对传统并行K-means聚类算法时间复杂度比较高的问题,结合Hadoop平台以及MapReduce编程模型的优势,提出了利用Hadoop及MapReduce编程模型实现大数据量下的K-means聚类算法。其中,Map函数完成每条记录到各个质心距离的计算并标记其所属类别,Reduce函数完成质心的更新,同时计算每条数据到其所属中心点的距离,并累计求和。通过实验,验证了K-means算法部署在Hadoop集群上并行化运行,在处理大数据时,同传统的串行算法相比,确实能够降低时间复杂度,而且表现出很好的稳定性和扩展性。
- 周婷张君瑛罗成
- 关键词:数据挖掘HADOOPMAPREDUCE