苏金
- 作品数:2 被引量:8H指数:2
- 供职机构:西安工业大学计算机科学与工程学院更多>>
- 发文基金:西安市未央区科技计划项目陕西省科技统筹创新工程计划项目陕西省科学技术研究发展计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 双MapReduce改进的Canopy-Kmeans算法被引量:6
- 2016年
- 由于传统的Canopy-Kmeans算法在中心点的选取存在随机性,其迭代过程的冗余计算降低了算法的运行效率.文中基于"最小最大原则"和三角不等式原理,在Hadoop平台上提出了一种基于双MapReduce改进的Canopy-Kmeans算法.实验结果表明:设计的并行算法精确率在不同大小的数据集上平均提高了15.3%,加速比和扩展性随着数据规模和节点的不断增加也相应的提高了1.5~3倍,解决了Canopy中心点选中存在的问题和迭代过程中冗余的距离计算.
- 刘宝龙苏金
- 关键词:冗余计算HADOOP平台
- 基于Hadoop平台的K-means聚类算法被引量:2
- 2017年
- 传统的K-means算法虽然具有很多优点,但聚类准则函数对簇密度不均的数据集分类效果较差.文中在加权标准差准则函数的基础之上,增加了收敛性判定,并在Hadoop平台上提出了一种基于Map Reduce编程思想设计与优化的K-means并行算法.与传统的K-means算法相比,设计的并行算法在聚类结果的准确性、加速比、扩展性、收敛性等方面都有显著的提高,降低了因簇密度不均引起误分的概率,提高了算法的聚类精度,并且数据规模越大、节点越多,优化的效果就越明显.
- 刘宝龙苏金
- 关键词:K-MEANSMAPREDUCEHADOOP