国家高技术研究发展计划(2001AA114210-03)
- 作品数:1 被引量:86H指数:1
- 相关作者:孙茂松樊兴华更多>>
- 相关机构:清华大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 中文文本全文查重的实验研究
- 互联网中大量的重复文本不仅给信息检索带来了诸多不便,而且也是对知识产权的侵犯。本文主要通过实验研究中文文本查重的两个因素:(1)特征字的因素,即分别选取高频字(包括逗号和句号)、中频字和低频字作为特征字对全文查重的影响;...
- 宋兰孙茂松
- 关键词:计算机应用中文信息处理
- 文献传递
- 一种高性能的两类中文文本分类方法被引量:86
- 2006年
- 提出了一种高性能的两类中文文本分类方法.该方法采用两步分类策略:第1步以词性为动词、名词、形容词或副词的词语作为特征,以改进的互信息公式来选择特征,以朴素贝叶斯分类器进行分类.利用文本特征估算文本属于两种类型的测度X和Y,构造二维文本空间,将文本映射为二维空间中的一个点,将分类器看作是在二维空间中寻求一条分割直线.根据文本点到分割直线的距离将二维空间分为可靠和不可靠两部分,以此评估第1步分类结果,若第1步分类可靠,做出分类决策;否则进行第2步.第2步将文本看作由词性为动词或名词的词语构成的序列,以该序列中相邻两个词语构成的二元词语串作为特征,以改进互信息公式来选择特征,以朴素贝叶斯分类器进行分类.在由12600篇文本构成的数据集上运行的实验表明,两步文本分类方法达到了较高的分类性能,精确率、召回率和F1值分别为97.19%,93.94%和95.54%.
- 樊兴华孙茂松
- 关键词:文本分类文本过滤高性能中文信息处理