您的位置: 专家智库 > >

广东省哲学社会科学规划项目(GD11CTS04)

作品数:1 被引量:54H指数:1
相关作者:李焰锋路永和更多>>
相关机构:中山大学更多>>
发文基金:国家高技术研究发展计划广东省哲学社会科学规划项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇文本
  • 1篇文本分类
  • 1篇计算方法
  • 1篇TF-IDF

机构

  • 1篇中山大学

作者

  • 1篇路永和
  • 1篇李焰锋

传媒

  • 1篇图书情报工作

年份

  • 1篇2013
1 条 记 录,以下是 1-1
排序方式:
改进TF-IDF算法的文本特征项权值计算方法被引量:54
2013年
首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(termfrequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。
路永和李焰锋
关键词:文本分类TF-IDF
共1页<1>
聚类工具0