公共文化服务平台

2025年2月25日星期二

|

欢迎来到鞍山市图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

国家高技术研究发展计划(2001AA114210-03): 作品数：1 被引量：86H指数：1; 相关作者：孙茂松樊兴华更多>>; 相关机构：清华大学更多>>; 发文基金：国家自然科学基金国家高技术研究发展计划更多>>; 相关领域：自动化与计算机技术更多>>

相关作品
相关人物
相关机构
相关资助
相关领域

文献类型

1篇期刊文章
1篇会议论文

领域

2篇自动化与计算...

主题

2篇信息处理
2篇中文
2篇中文信息
2篇中文信息处理
1篇中文文本
1篇文本分类
1篇文本分类方法
1篇文本过滤
1篇类方
1篇计算机
1篇计算机应用
1篇高性能

机构

2篇清华大学

作者

2篇孙茂松
1篇樊兴华
1篇宋兰

传媒

1篇计算机学报
1篇全国第八届计...

年份

1篇2006
1篇2005

共 1 条记录，以下是 1-2

全选清除导出

排序方式：

中文文本全文查重的实验研究: 互联网中大量的重复文本不仅给信息检索带来了诸多不便,而且也是对知识产权的侵犯。本文主要通过实验研究中文文本查重的两个因素:(1)特征字的因素,即分别选取高频字(包括逗号和句号)、中频字和低频字作为特征字对全文查重的影响;...; 宋兰孙茂松; 关键词：计算机应用中文信息处理; 文献传递

一种高性能的两类中文文本分类方法被引量：86: 2006年; 提出了一种高性能的两类中文文本分类方法.该方法采用两步分类策略:第1步以词性为动词、名词、形容词或副词的词语作为特征,以改进的互信息公式来选择特征,以朴素贝叶斯分类器进行分类.利用文本特征估算文本属于两种类型的测度X和Y,构造二维文本空间,将文本映射为二维空间中的一个点,将分类器看作是在二维空间中寻求一条分割直线.根据文本点到分割直线的距离将二维空间分为可靠和不可靠两部分,以此评估第1步分类结果,若第1步分类可靠,做出分类决策;否则进行第2步.第2步将文本看作由词性为动词或名词的词语构成的序列,以该序列中相邻两个词语构成的二元词语串作为特征,以改进互信息公式来选择特征,以朴素贝叶斯分类器进行分类.在由12600篇文本构成的数据集上运行的实验表明,两步文本分类方法达到了较高的分类性能,精确率、召回率和F1值分别为97.19%,93.94%和95.54%.; 樊兴华孙茂松; 关键词：文本分类文本过滤高性能中文信息处理

全选清除导出

共1页<1>

执行隐藏清空

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张