北京市教育委员会科技发展计划(KZ200310772013)
- 作品数:11 被引量:238H指数:5
- 相关作者:施水才吕学强李渝勤赵捧未俞鸿魁更多>>
- 相关机构:北京信息科技大学西安电子科技大学中国科学院更多>>
- 发文基金:国家自然科学基金北京市教育委员会科技发展计划北京市教委资助项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于层叠隐马尔可夫模型的中文命名实体识别被引量:181
- 2006年
- 提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。
- 俞鸿魁张华平刘群吕学强施水才
- 关键词:命名实体识别角色标注ICTCLAS
- 基于RSS的分布式新闻博客搜索引擎设计被引量:4
- 2007年
- 针对传统搜索引擎对频繁更新的新闻和博客网站的搜索实时性较差的现状,提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloom filter数据结构压缩索引文件,构建一个基于RSS的P2P分布式的新闻博客搜索引擎,从而达到对频繁更新站点的实时性搜索,同时减少存储成本。
- 刘峰施水才肖诗斌王弘蔚
- 关键词:RSSPASTRYBLOOM
- 基于元搜索的聚类挖掘引擎被引量:2
- 2007年
- 针对目前搜索引擎返回结果的海量性和无结构性,构建一个基于元搜索的聚类挖掘引擎,旨在利用元搜索引擎返回的结果,提高搜索结果聚类效率,快速有效地为用户提供一个搜索结果结构视图,从而进行进一步的知识发现。介绍了搜索引擎和挖掘引擎的主要功能及差别,应用向量空间模型对元搜索结果进行处理。介绍当前主要的聚类算法—K-means划分法和层次凝聚聚类法,并在此基础上提出基于元搜索结果将两种聚类算法相结合的聚类方法。
- 翁勍力施水才赵捧未
- 关键词:元搜索文本聚类
- BBS中文新词语自动挖掘被引量:2
- 2007年
- 针对从BBS文本中自动挖掘新词语的问题,提出一种结合统计和规则的简单易行的方法,采用中文分词、频数统计、词性过滤、词语碎片组合等关键技术。据此方法开发的系统可以自动挖掘不限长度、不限领域、不限类别的与上下文无关的任意新词语。
- 吕学强黄河李渝勤施水才
- 关键词:新词语
- 一种通用HTML网页主题信息提取方法被引量:17
- 2007年
- 采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面“主题”信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档。
- 许文都云程李渝勤施水才
- 关键词:DOM信息提取相关度
- 基于贝叶斯方法的中文垃圾邮件过滤技术综述
- 本文首先介绍了朴素贝叶斯方法的基本原理,分析了决定基于贝叶斯的中文垃圾邮件过滤器的性能的几个因素,然后比较了几种基于该方法的过滤器,最后总结了制约中文垃圾邮件过滤技术发展的两个重要因素。
- 张志斌施水才吕学强
- 关键词:贝叶斯方法邮件过滤
- 文献传递
- 基于网页摘要分析的元搜索引擎研究被引量:1
- 2006年
- 针对目前搜索引擎返回结果的海量性,构建一个元搜索引擎,旨在高效利用多个成员搜索引擎返回的结果。介绍元搜索引擎的基本架构及当前结果融合的主要方法,应用统计学方法研究网页标题、网页摘要与网页文本之间的相关性关系,从而确定相关度权值进行结果相关性判断。实验证明,元搜索引擎搜索结果的平均准确率比各个成员引擎的搜索结果平均准确率都有较大提高。
- 翁勍力施水才赵捧未
- 关键词:元搜索相关度
- 基于大规模语料库的新闻领域新词挖掘
- 以真实的人民日报语料为处理对象,提出了一种基于大规模语料库的新闻领域新词挖掘的方法。首先对标有时间戴标签的大规模语料进行串频统计和子串归并,建立历史词汇库;然后与历史词库进行比较,从而生成对象新闻语料中的候选新词;最后根...
- 程涛施水才张玉杰吕学强
- 关键词:新词串频统计
- 文献传递
- 基于WordNet的语义分布词典建设被引量:3
- 2007年
- 提出一种基于WordNet自动构建语义分布词典的方法。在介绍WordNet系统和Semcor语料库的基础上,设计语义分布词典的结构。分析Sense.idx文件和Taglist文件内容,详细描述以它们为基础自动构建语义分布词典的过程。
- 张会平吕学强施水才李渝勤
- 关键词:语言资源WORDNET
- 基于RSS的分布式博客搜索引擎的研究被引量:9
- 2007年
- 针对传统搜索引擎对频繁更新的博客网站实时性搜索较差的问题,提出一种基于RSS的分布式博客搜索引擎的系统框架,通过划分网络区域,采取分布式的思想采集和索引博客网页的RSS结构化数据,从而达到了对频繁更新站点的实时性搜索,也降低了搜索引擎的存储成本和数据冗余程度。
- 封硕赵捧未施水才
- 关键词:搜索引擎分布式RSS