广东省哲学社会科学规划项目(GD11CTS04)
- 作品数:1 被引量:54H指数:1
- 相关作者:李焰锋路永和更多>>
- 相关机构:中山大学更多>>
- 发文基金:国家高技术研究发展计划广东省哲学社会科学规划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 改进TF-IDF算法的文本特征项权值计算方法被引量:54
- 2013年
- 首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(termfrequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。
- 路永和李焰锋
- 关键词:文本分类TF-IDF