张文良
- 作品数:3 被引量:23H指数:2
- 供职机构:南开大学软件学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 文本分类中的特征选择方法研究
- 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。特别是随着互联网技术的发展,网络成为人们进行信息交互和处理的最有效平台,各种数字化信息每天以极高的速度增长,面对如此巨大的信息...
- 张文良
- 关键词:文本分类聚类信息增益数据挖掘
- 文献传递
- 基于差分贡献的垃圾邮件过滤特征选择方法被引量:11
- 2007年
- 垃圾邮件过滤本质上是一个二类文本分类问题,特征选择是其一个重要的组成部分。针对垃圾邮件过滤问题的特殊性,基于“差分贡献”的思想对文档频数和互信息量这两种传统的特征选择方法进行了改进,设计了新的垃圾邮件过滤特征选择方法。实验结果表明,基于差分贡献的特征选择方法使得垃圾邮件过滤的精度得到了有效的提高。
- 张文良黄亚楼倪维健
- 关键词:垃圾邮件过滤互信息量
- 一种基于聚类的文本特征选择方法被引量:12
- 2007年
- 传统的文本特征选择方法存在一个共性,即通过某种评价函数分别计算单个特征对类别的区分能力,由于没有考虑特征间的关联性,这些方法选择的特征集往往存在着冗余。针对这一问题,提出了一种基于聚类的特征选择方法,先使用聚类的方法对特征间的冗余性进行裁减,然后使用信息增益的方法选取类别区分能力强的特征。实验结果表明,这种基于聚类的特征选择方法使得文本分类的正确性得到了有效的提高。
- 张文良黄亚楼倪维健
- 关键词:聚类文本分类信息增益