国家自然科学基金(60875029)
- 作品数:41 被引量:199H指数:7
- 相关作者:杨炳儒曲武李广原刘英华谢永红更多>>
- 相关机构:北京科技大学清华大学全技术有限公司更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家创新方法工作专项更多>>
- 相关领域:自动化与计算机技术机械工程轻工技术与工程更多>>
- 基于复杂结构数据聚类的推荐系统被引量:1
- 2011年
- 针对目前推荐系统存在的不能处理结构复杂、语义丰富领域的推荐问题以及对项目空间和用户空间本质特征理解的狭窄性和简单性、稀疏性问题、可扩展性问题,研究了基于复杂结构数据聚类的推荐方法,提出了一个新颖、有效、具有高可扩展性的基于复杂结构数据聚类的混合型推荐系统HRSCCSD。该系统能同时融合用户语义、项目语义和项目协同多方面信息,极大地拓展了当前推荐系统的应用深度和广度。实验表明,所提出的推荐技术在覆盖性、准确性以及可扩展性方面均优于当前主流的推荐技术。
- 李琳娜张志平
- 关键词:推荐系统高阶逻辑
- 一种基于约束的关联规则挖掘算法被引量:11
- 2012年
- 基于约束的关联规则挖掘是一种重要的关联挖掘,能按照用户给出的条件来实行有针对性的挖掘。大多数此类算法仅处理具有一种约束的挖掘,因而其应用受到一定程度的限制。提出一种新的基于约束的关联规则挖掘算法MCAL,它同时处理两种类型的约束:非单调性约束和单调性约束。算法包括3个步骤:第一步,挖掘当前数据集的频繁1项集;第二,应用约束的性质和有效剪枝策略来寻找约束点,同时生成频繁项的条件数据库;最后,递归地应用前面两步寻找条件数据库中频繁项的约束点,以生成满足约束的全部频繁项集。通过实验对比,无论从运行时间还是可扩展性来说,本算法均达到较好的效果。
- 李广原杨炳儒周如旗
- 关键词:数据挖掘关联规则挖掘
- 异构分布的多元线性回归隐私保护模型被引量:11
- 2011年
- 隐私保护是数据挖掘领域中一个极其重要而富有挑战性的课题,以实现隐私数据的保护和准确知识的挖掘两者兼得为其最终目标.统计回归是数据挖掘的常用工具之一,而数据分布式存储情况下统计分析的研究工作甚少.由于机密性或其他原因,数据拥有者往往不情愿与其他合作方分享原始数据,去又希望与其他合作方共同协作执行统计分析.关注于如何解决既获取准确统计分析结果又保护原始数据隐私的平衡问题,基于环同态和离散对数计算困难的思想,建立了隐私保护回归模型,该模型通过同态公钥加密协议的同态性质从而获取准确的统计分析结果.经理论分析和实验证明该协议模型在语义上是安全的和有效的.
- 方炜炜任江夏红科
- 关键词:安全多方计算隐私保护同态加密密码学
- 一种多约束关联挖掘算法被引量:3
- 2012年
- 约束关联挖掘是在把项或项集限制在用户给定的某一条件或多个条件下的关联挖掘,是一种重要的关联挖掘类型,在现实中有着不少的应用。但由于大多数算法处理的约束条件类型单一,提出一种多约束关联挖掘算法。该算法以FP-growth为基础,创建项集的条件数据库。利用非单调性和单调性约束的性质,采用多种剪枝策略,快速寻找约束点。实验证明,该算法能有效地挖掘多约束条件下的关联规则,且可扩展性能很好。
- 关心李广原
- 关键词:数据挖掘
- 一种增强的个性化匿名隐私保护模型被引量:3
- 2011年
- 匿名模型是近年来隐私保护研究的热点技术之一,主要研究如何在数据发布中避免敏感数据的泄露,又能保证数据发布的高效用性.提出了一种个性化(α[s],l)-多样k-匿名模型,该方法将敏感属性泛化成泛化树,根据数据发布中隐私保护的具体要求,给各结点设置不同的α约束,发布符合个性化匿名模型的数据.该方法在保护隐私的同时进一步提高信息的个性化要求.实验结果表明,该方法提高了信息的有效性,具有很高的实用性.
- 刘英华刘永彬李广原郭建威
- 关键词:数据发布匿名K-匿名
- 基于流形正则化的非光滑非负矩阵分解
- 2014年
- 经典的非光滑非负矩阵分解方法只能发现数据中的全局统计信息,对于非线性分布数据无能为力,而流形学习方法在探索高维非线性数据集真实几何结构方面具有明显优势。鉴于此,基于流形正则化思想,提出了一种新颖的基于流形正则化的非光滑非负矩阵分解方法。该方法不仅考虑了数据的几何结构,而且对编码系数矩阵和基矩阵同时进行稀疏约束,并将它们整合于单个目标函数中。构造了一个有效的乘积更新算法,并在理论上证明了算法的收敛性。标准数据集上的实验表明了MRnsNMF的有效性。
- 姜伟陈耀杨炳儒
- 关键词:非负矩阵分解非光滑流形正则化
- 基于模糊论的数据挖掘研究综述被引量:7
- 2011年
- 近年来,将模糊集理论应用到数据挖掘研究中成为数据挖掘领域的一个研究热点。为追踪其研究进展,探讨未来的研究方向,对模糊集理论在数据挖掘中的主要研究方向(聚类分析、关联挖掘、分类)进行了综述,主要阐述数据和模式的表示、模式相似性计算等关键问题。可以看出,充分利用模糊论强大的模糊数据建模功能,并且与其它智能化处理技术相结合,是当前这一领域研究的主流技术。指出了存在的若干问题,并对研究前景进行展望。
- 李广原杨炳儒刘英华曹丹阳
- 关键词:模糊集理论数据挖掘模糊聚类
- 基于知识库的知识发现(KDK)研究
- 从知识库中发现新知识KDK(Knowledge Discovery in Knowledge base)是知识发现的一个新的重要的研究方向。其结果将直接作用于大型知识库的构建,并将为解决目前机器学习的瓶颈问题------...
- 杨炳儒李广原刘永彬
- 关键词:知识库知识发现数据挖掘
- 文献传递
- 基于差别矩阵的不一致决策表规则获取算法被引量:7
- 2013年
- 针对传统基于差别矩阵的不一致决策表规则获取算法效率不理想的情况,提出了一种快速的基于差别矩阵的规则获取算法。算法首先引入简化决策表思想,删除决策表中可能存在的许多重复对象;然后基于简化决策表构造不同决策类之间的子差别矩阵,以有效地解决对象分布的非平衡性问题和缩小算法的求解空间;且采用启发式向后贪心搜索策略求解相对最小属性约简;并根据规则可信度获取有效的决策规则,可信度可动态设置,使算法具有较好的适应性。最后通过算例分析和实验比较验证了算法能获取有效的决策规则。
- 钱文彬杨炳儒徐章艳谢永红
- 关键词:粗糙集理论不一致决策表属性约简
- 一种时态关联规则挖掘算法被引量:2
- 2011年
- 时态关联规则挖掘是针对在一段时间范围内的关联挖掘,在现实中有较多的应用。现有的大多数时态关联挖掘算法或者需要多次扫描数据库,或者没有考虑各个项在数据集上出现或结束时间上的不同,因而挖掘性能受到较大的制约。为此,本文提出一种增量式的面向具有不同时间出现与结束的项的时态关联规则挖掘算法。为减少存储方面的开销,只需保存已挖掘过的历史数据集中的频繁1项集。为了减少数据的扫描量,通过有效的剪枝策略,有选择性地扫描相关事务项,至多只需扫描一次完整的数据库。实验证明,该算法具有较好的挖掘性能。
- 李广原刘英华刘永彬
- 关键词:数据挖掘关联规则