邓玲玲
- 作品数:2 被引量:36H指数:2
- 供职机构:河海大学计算机与信息学院更多>>
- 发文基金:中央高校基本科研业务费专项资金江苏省水利科技项目国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- FP-growth算法改进与分布式Spark研究被引量:4
- 2016年
- 频繁项集的挖掘一直是数据挖掘领域重要的研究方向之一。FP-growth算法作为无剪枝算法的代表算法被广泛应用于事务数据集的挖掘中。但是FP-growth算法对计算和数据集的规模是敏感的,一方面构建FP-tree过程中查找操作作为主要耗时操作时间复杂度较高,另一方面在数据集的横向或纵向维度较大时将使挖掘效率降低甚至失败。解决以上问题的高效而广泛使用的策略是降低搜索时间复杂度和应用分布式计算。提出了一种基于Spark框架和改进FP-growth算法的分布式DFP算法,试验结果表明,相比于基于Map Reduce框架的PFP算法、基于Spark框架和原始FP-growth算法实现的PFP_SPK算法,DFP算法更加高效,集群和数据伸缩性更好。
- 邓玲玲娄渊胜叶枫
- 关键词:频繁项集FP-GROWTHSPARK
- 关联规则挖掘算法Apriori的研究改进被引量:32
- 2015年
- 在关联规则挖掘领域有很多算法,其中最经典的是Apriori算法,该算法可找出所有的频繁项集,并发现项目间的关联关系,但是执行效率却很低。针对经典Apriori算法中存在的I/O过重,产生频繁项集,计算量过大等问题,提出了一种Apriori的改进方案I_Apriori,通过减少扫描数据库次数,降低候选项集计算复杂度以及减少预剪枝步骤计算量等途径提高了算法的执行效率。对比分析了Apriori和I_Apriori算法,I_Apriori算法计算复杂度更低,同时进行了对比实验,结果表明相比于Apriori算法,I_Apriori算法执行效率更高。
- 周发超王志坚叶枫邓玲玲
- 关键词:关联规则APRIORI复杂度