国家高技术研究发展计划(2002AA444120)
- 作品数:9 被引量:128H指数:5
- 相关作者:李春平任靖翟旭君戴涛周楠更多>>
- 相关机构:清华大学北京理工大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术经济管理更多>>
- 基于非对称相似度的文本聚类方法被引量:9
- 2006年
- 文本聚类具有数据稀疏性的特点,常见的聚类方法采用基于距离的相异度,为了增强文档的区分特征,提出一种基于非对称相似度的方法,来度量文档对象之间的关联。定义了文本对象之间的非对称相似度度量。利用文本非对称相似度矩阵的稀疏特性,采用强连通构件的划分方法对文本对象进行聚类分析。并通过迭代的方法形成聚类结果的概念层次。实验结果表明:非对称相似度比距离相异度具有更高的准确率和更少的执行时间,当聚类结果簇数目达到较小时,准确率提高约为20%。
- 宋韶旭李春平
- 关键词:文字信息处理文本聚类
- 平行坐标及其在聚类分析中的应用被引量:16
- 2005年
- 平行坐标对多维数据的表达是数据可视化的重要方法之一。它实现了多维数据在二维平面上的表示。利用平行坐标对数据进行分析处理的技术已经取得了很大的进展,如刷(Brushing)技术、交换坐标轴、抽象等。这些分析技术已经应用到数据挖掘的很多领域,尤其在聚类分析中,平行坐标对数据集的定性分析使聚类结果的合理性得到证明。
- 翟旭君李春平
- 关键词:聚类分析数据可视化
- 一种改进的蒙特卡罗交叉验证算法被引量:2
- 2004年
- 概率聚类的算法已经广泛地应用于聚类分析领域,但是这些算法都没有回答如何选择一个最佳的聚类个数的问题。该文首先分析了通用的确定概率聚类个数的方法,然后针对蒙特卡罗交叉验证算法不能解决后验概率分散的问题,提出一种改进的蒙特卡罗交叉验证算法(iMCCV)。实验结果证明该算法可以有效地确定最佳K值。
- 戴涛李春平
- 关键词:聚类个数
- 最小距离分类器的改进算法——加权最小距离分类器被引量:51
- 2005年
- 最小距离分类器是一种简单而有效的分类方法。为了提高最小距离分类器的分类性能,主要的改进方法是选择更有效的距离度量。通过分析多重限制分类器和决策树分类器的分类原则,提出了基于标准化欧式距离的加权最小距离分类器。该分类器通过对标称型和字符串型属性的距离的加权定义,以及增加属性值的范围约束,扩大了最小标准化欧式距离分类器的适用范围,同时提高了其分类准确率。实验结果表明,加权最小距离分类器具有较高的分类准确率。
- 任靖李春平
- 关键词:最小距离分类器欧式距离决策树分类器
- 数据挖掘工具集TH-Miner被引量:1
- 2006年
- TH-Miner是以Java实现的跨平台数据挖掘可视化系统。在TH-Miner中实现了多种经典的数据挖掘算法,并构造了几种新的改进算法。TH-Miner包括可视化聚类挖掘工具、分类算法工具、序列模式挖掘算法工具以及文本分类工具。
- 任靖陆甡翟旭君戴涛刘璧松李春平
- 关键词:数据挖掘工具序列模式挖掘文本分类
- 中国FDI区位因素的实证分析被引量:25
- 2005年
- 中国对外商投资有着其特有的吸引力,国内外学者对这一现象也进行了深入的研究,本文首次利用主分量方法处理难于以单独指标反映的因素:教育、基础设施,全面地反映了这两方面对FDI的影响;进一步验证了优惠政策、居民消费、居民储蓄、基础设施对FDI的促进作用以及FDI的强的自增长效应;对结论进行了详尽的解释并做出政策建议。
- 朱玉杰周楠
- 关键词:FDI区位优势主分量分析
- 产品全生命周期管理系统的关键技术和系统层次结构被引量:5
- 2006年
- 介绍了产品数据管理系统和产品全生命周期管理系统之间的联系,论述了产品全生命周期管理系统的关键技术,从PLMS功能结构和PLMS软件体系结构两个方面研究了产品全生命周期管理系统的框架结构,最后提出了PLMS的系统层次结构.
- 许承东赵向领宋伟
- 关键词:体系结构
- 基于统计学和语义信息的中文文本主题识别技术被引量:15
- 2005年
- 由于中文分词处理的复杂性在一定程度上限制了中文信息抽取技术的发展,因此,快速有效地抽取中文文本主题的需求越来越突出。该文主要通过中文分词技术、频繁词查找和词性组合计算来分析词与词之间的关联并最终提取出能够表达文章内容的主题词汇,同时还对这些词汇作了记分和排序。读者能够通过这些词汇来判定文章的主题和重要内容。通过对人民日报语料进行实验表明,该方法正确率能够保持在66%以上,同时对于网页邮件等真实文档也有较好的测试结果。
- 冯晋李春平
- 关键词:信息抽取文本挖掘
- 一个可扩展的文本分类系统的设计与实现被引量:4
- 2004年
- 论文在研究各种分类算法的基础上,总结了分类系统的一般流程和框架,设计并实现了一个适应性很强的可扩展的分类系统THTC。它利用面向对象技术构造,采用了一些常用的设计模式。实验证明,该系统性能与同类算法相当,能够兼容各种不同的算法和适应不同的文档,具有较强的可扩展性。
- 刘壁松李春平
- 关键词:文本分类面向对象设计模式可扩展性