陈亚丽
- 作品数:4 被引量:5H指数:2
- 供职机构:山东理工大学计算机科学与技术学院更多>>
- 发文基金:山东省自然科学基金山东省高等学校科技计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 数据密集型计算环境下的离群点挖掘算法被引量:2
- 2015年
- 在数据密集型计算环境中,数据的海量、高维、分布存储等特点,为数据挖掘算法的设计与实现带来了新的挑战。基于MapReduce模型提出网格技术与基于密度的方法相结合的离群点挖掘算法,该算法分为两步:Map阶段采用网格技术删除大量不可能成为离群点的正常数据,将代表点信息发送给主节点;Reduce阶段采用基于密度的聚类方法,通过改进其核心对象选取,可以挖掘任意形状的离群点。实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘。
- 陈亚丽张龙波张树森
- 关键词:离群点检测MAPREDUCE
- 数据密集型计算环境下离群点挖掘算法的研究
- 随着信息技术的快速发展,数据在医疗、商业、民生、科研与军事等领域都呈现出爆炸式增长,数据密集型计算环境下数据挖掘算法的研究已被越来越多的人所关注。数据密集型计算环境下数据挖掘主要分为聚类数据挖掘、分类、频繁项集挖掘、离群...
- 陈亚丽
- 关键词:数据密集型计算离群点MAPREDUCE模型
- 文献传递
- 改进的基于熵的中心聚类算法被引量:2
- 2014年
- 依据基于熵的模糊聚类算法(EFC),提出一种改进的基于熵的中心聚类算法,即通过EFC算法得到差异性十分明显的原始数据集的簇心,以这些簇心为中心再次进行聚类分析,通过各点到各中心的距离将各点重新分配到以各中心所代表的集合中。改进的算法不仅可以得到具有紧凑且差异明显的聚类结果,还可以使准确率得到有效提高。实验结果表明,该改进的算法能够实现数据集的有效聚类,相比于EFC算法的聚类结果准确率更高。
- 张树森张龙波陈亚丽安建瑞李彩虹
- 关键词:聚类分析
- 数据密集型计算环境下离群点挖掘算法设计与实现被引量:1
- 2013年
- 在数据密集型计算环境中,数据具有海量、高速变化、分布存储和异构等特征,对数据挖掘算法的设计与实现提出了新的挑战.基于MapReduce模型,提出了一种网格技术与基于LOF方法相结合的离群点挖掘算法MR_LOF.Map阶段采用网格进行数据约简,将代表点信息发送给主节点;Reduce阶段使用基于密度的离群点挖掘算法,借助网格期望值E筛选出稠密区域.该算法只需计算稀疏区域对象的LOF值,降低了算法的时间复杂度.实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘.
- 陈亚丽张龙波李彩虹张树森刘希昱
- 关键词:离群点数据密集型MAPREDUCE