国家部委预研基金(40104116)
- 作品数:3 被引量:3H指数:1
- 相关作者:刘玉树马润波赵欣欣索红光张利萍更多>>
- 相关机构:北京理工大学山西大学更多>>
- 发文基金:国家部委预研基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种快速文本归类算法的设计与实现被引量:1
- 2006年
- 为实现无维数约减技术而使分类算法可行且不浪费空间存储的超稀疏文档向量,同时保证分类精度和速度且两者相互独立的目标,提出使用类别特征信息数据库、类别特征权重向量模型、待归类文档压缩向量表示法和改进的Rocchio分类算法等技术实现文档的高速归类.在相同的Reuters测试语料集上,与CRF算法和改进的kNN算法进行对比实验.结果表明,在基本不牺牲精度的情况下,归类算法的分类速度明显高于对比算法.
- 高影繁马润波刘玉树
- 基于带权语义距离的网页预取方法被引量:2
- 2006年
- 为了体现词条之间的关系,更好地为用户提供个性化服务,提出了在语义网络下对用户兴趣建模的思想.根据用户的访问历史,利用知网建立基于概念关系的用户兴趣森林模型.通过计算机链接描述文字的平均带权语义距离,预取用户将来可能访问的Web页.基于带权语义距离的网页预取方法对用户兴趣进行归纳,用带权语义距离反映词与词之间的概念关系.实验结果表明,此方法的命中率较高,漏取率较低,平均命中率可以达到61%左右.
- 赵欣欣索红光刘玉树张利萍
- 关键词:网页预取
- 一种结合参数优化的贝叶斯文本分类算法
- 2007年
- 朴素贝叶斯算法的主要特征是分类速度快而分类精度较低,算法的目标是在传统贝叶斯文本分类算法的前提下达到令人满意的分类精度,并进一步提高分类速度.算法的技术手段包括在原有多项式贝叶斯模型的基础上建立简化的贝叶斯实现模型,建立仅包含单词在类别中信息的类别特征信息数据库和优化lidstone修正因子等.算法实验在Reuters-21578测试语料集上进行.结果表明,与相关文献相比,分类速度明显高于对比算法,且精度优于或近于相关文献的改进贝叶斯算法.
- 高影繁马润波刘玉树
- 关键词:简化模型参数优化