您的位置: 专家智库 > >

国家高技术研究发展计划(2001AA114210-03)

作品数:1 被引量:86H指数:1
相关作者:孙茂松樊兴华更多>>
相关机构:清华大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇会议论文

领域

  • 2篇自动化与计算...

主题

  • 2篇信息处理
  • 2篇中文
  • 2篇中文信息
  • 2篇中文信息处理
  • 1篇中文文本
  • 1篇文本分类
  • 1篇文本分类方法
  • 1篇文本过滤
  • 1篇类方
  • 1篇计算机
  • 1篇计算机应用
  • 1篇高性能

机构

  • 2篇清华大学

作者

  • 2篇孙茂松
  • 1篇樊兴华
  • 1篇宋兰

传媒

  • 1篇计算机学报
  • 1篇全国第八届计...

年份

  • 1篇2006
  • 1篇2005
1 条 记 录,以下是 1-2
排序方式:
中文文本全文查重的实验研究
互联网中大量的重复文本不仅给信息检索带来了诸多不便,而且也是对知识产权的侵犯。本文主要通过实验研究中文文本查重的两个因素:(1)特征字的因素,即分别选取高频字(包括逗号和句号)、中频字和低频字作为特征字对全文查重的影响;...
宋兰孙茂松
关键词:计算机应用中文信息处理
文献传递
一种高性能的两类中文文本分类方法被引量:86
2006年
提出了一种高性能的两类中文文本分类方法.该方法采用两步分类策略:第1步以词性为动词、名词、形容词或副词的词语作为特征,以改进的互信息公式来选择特征,以朴素贝叶斯分类器进行分类.利用文本特征估算文本属于两种类型的测度X和Y,构造二维文本空间,将文本映射为二维空间中的一个点,将分类器看作是在二维空间中寻求一条分割直线.根据文本点到分割直线的距离将二维空间分为可靠和不可靠两部分,以此评估第1步分类结果,若第1步分类可靠,做出分类决策;否则进行第2步.第2步将文本看作由词性为动词或名词的词语构成的序列,以该序列中相邻两个词语构成的二元词语串作为特征,以改进互信息公式来选择特征,以朴素贝叶斯分类器进行分类.在由12600篇文本构成的数据集上运行的实验表明,两步文本分类方法达到了较高的分类性能,精确率、召回率和F1值分别为97.19%,93.94%和95.54%.
樊兴华孙茂松
关键词:文本分类文本过滤高性能中文信息处理
共1页<1>
聚类工具0