何清
- 作品数:104 被引量:1,534H指数:14
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金北京市自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术理学文化科学经济管理更多>>
- 基于Spark的高效并行自动编码机被引量:1
- 2018年
- 机器学习中一个非常关键的问题就是如何获取良好的数据特征表示,许多经典的特征提取方法是基于数据间关系或利用简单线性组合降维后得到数据的特征表示。其中深度学习算法在各种学习任务中都可以取得良好的效果,而且可以学到很好的数据特征表示。但现有深度学习算法或模型大多为单机串行实现,不能处理较大规模的数据且运行时间较长。本文设计实现了一种基于Spark分布式平台的高效并行自动编码机,该编码机可以有效地进行特征表示学习,并且利用分布式计算平台Spark对算法进行加速,优化了对稀疏数据的操作,大大提升了运行效率。本文通过在文本数据特征学习以及协同过滤两个任务上的实验,表明本文所实现的并行自动编码机的有效性和高效性。
- 庄福振钱明达申恩兆张大鹏何清
- 关键词:SPARK
- 一种采用决策树的数据分类方法和系统
- 本发明公开了一种采用决策树的数据分类方法和系统。所述方法,包括下列步骤:基于MapReduce机制,并行计算训练数据中包含的每个属性的信息增益,选出最佳的分裂决策属性作为节点构造决策树;根据所述决策树,对输入的数据记录进...
- 庄福振何清
- 文献传递
- 机器学习与文本挖掘若干算法研究
- 本文研究了机器学习和文本挖掘的若干算法。在第一部分,针对支持向量机对海量数据进行分类遇到的困难,基于拓扑学中的Jordan曲线定理,提出了基于分类超曲面的数据分类方法。这一部分研究工作主要有以下几方面创新: (1)...
- 何清
- 关键词:隐式马尔可夫模型自组织映射概念语义空间语义索引
- 文献传递
- 基于超曲面的多类分类方法被引量:3
- 2003年
- 使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分 .基于 Jordan曲线定理 ,提出了一种通用的基于分类超曲面的分类法 ,它是通过直接构造分类超曲面 ,根据样本点关于分类曲面的围绕数的奇偶性进行分类的一种全新分类判断算法 ,不需作升维变换 ,不需要考虑使用何种核函数 ,而直接地解决非线性分类问题 .对数据分类应用的结果说明 ,基于分类超曲面的多类分类法可以有效地解决非线性数据的分类问题 ,并能够提高分类效率和准确度 .
- 何清史忠植任力安
- 关键词:支持向量机
- 基于感知学习和语言认知的智能计算模型
- 史忠植迟惠生周晓林吴玺宏何清梁吉业丁世飞胡宏叶世伟罗定生张亚旭秦亮曦蒙祖强施智平李清勇史俊张素兰郑征张志勇石志伟
- 从感知学习和语言认知机理入手,开展跨学科的共同研究,探讨智能计算新理论和新方法。取得的主要研究成果:1.提出了智能科学和感知学习的理论框架;提出了Bayes连接域网络计算模型BLFN和知觉有效编码模型;利用机器学习的方法...
- 关键词:
- 关键词:机器学习方法
- 一种基于并行自动编码机的特征学习方法及系统
- 本发明提供一种基于并行自动编码机的特征学习方法,包括:1)管理机执行Map操作,为各个工作机规划任务并将任务分发给每个工作机;其中,各个工作机的任务一致,均是基于所输入的数据对自动编码机的权值矩阵进行训练;所述权值矩阵包...
- 庄福振钱明达申恩兆敖翔罗平何清
- 文献传递
- 一种基于频繁交易模式的异常账户检测方法及系统
- 本发明提出一种基于频繁交易模式的异常账户检测方法及系统,包括:获取区块链中数字货币交易的时间图,其中时间图中节点为交易账户,时间图中节点间的边代表交易账户间的货币交易方向和交易时间,剔除时间图中每条边的交易时间,得到交易...
- 敖翔柳阳秦紫笛何清
- 基于MapReduce的并行PLSA算法及在文本挖掘中的应用被引量:7
- 2015年
- PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,并把并行PLSA算法运用到文本聚类和语义分析的文本挖掘应用中。实验结果表明该算法在处理较大数据量时表现出了很好的性能。
- 李宁罗文娟李宁罗文娟庄福振
- 关键词:MAPREDUCE语义分析
- 大数据挖掘与云服务模式被引量:3
- 2013年
- 随着物联网、移动通信、移动互联网和数据自动采集技术的飞速发展以及在各行各业的广泛应用,人类社会所拥有的数据面临着前所未有的爆炸式增长。美国互联网数据中心指出,互联网上的数据每年以50%的速度增长,每两年翻一番,而目前世界上90%以上的数据是最近几年才产生的,人类社会进入了"大数据"时代。因此,信息的获取非常重要,一定程度上,信息的拥有量已经成为决定和制约社会发展的重要因素。
- 何清庄福振
- 关键词:数据挖掘互联网数据中心移动互联网人类社会移动通信
- 基于云计算的智能用电商业智能系统
- 刘建明王继业栗宁范鹏展虎嵩林王风雨吴新玲赵强闫爱梅王斌毕克伍亮吕厚雷何清童波
- 主要技术领域:信息通信技术,自动控制,云计算,智能电网,用电技术。主要内容:项目以云计算技术为支撑,基于大规模数据并行处理、并行多维分析和并行数据挖掘等商业智能关键技术,将云计算与商业智能技术相结合,研发了智能用电商业智...
- 关键词:
- 关键词:云计算商业智能系统