张杰
- 作品数:2 被引量:24H指数:2
- 供职机构:中国人民解放军炮兵学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 中文文本分类器的评价被引量:3
- 2005年
- 对目前比较流行的4种中文文本分类器(Rocchio、KNN、NaiveBayes、最大熵)进行评价,其中,NaiveBayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法。选用χ2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测。实验结果表明,最大熵和NaiveBayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些。
- 张杰战学刚冯金平陈文亮
- 关键词:文本分类分类器评测
- 中文文本分类的特征选取评价被引量:22
- 2005年
- 在对中文文本分类的特征选取方法进行综合评价的基础上,对目前比较流行的5种 特征选取方法(文档频度DF、互信息MI、信息增益IG、x2统计X2、术语强度TS)进行评价,选用 NaIve Bayes作为文本分类器,对一个中文文本分类语料库进行分类评测.实验结果表明,DF和x2 的分类性能十分接近,处于较好水平;而TS分类性能稍差一些;IG和MI的分类性能与其他相比都 有较大的差距.特别是在特征数目少的情况下,MI和IG的结果较差.在特征数目为1000时,MI的 F1值为64.60%;IG为69.36%,而DF则达到87.01%.
- 孙国菊张杰
- 关键词:文本分类特征选取文本表示