北京信息科技大学中文信息处理研究中心
- 作品数:80 被引量:498H指数:9
- 相关作者:俞鸿魁赵红改马永成韩艳铧宗萍更多>>
- 相关机构:中国科学院计算技术研究所大连工业大学信息科学与工程学院西安电子科技大学经济与管理学院更多>>
- 发文基金:国家自然科学基金北京市教委科技发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学语言文字电子电信更多>>
- 基于层叠隐马尔可夫模型的中文命名实体识别被引量:181
- 2006年
- 提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。
- 俞鸿魁张华平刘群吕学强施水才
- 关键词:命名实体识别角色标注ICTCLAS
- 基于分类的图像检索研究
- 针对目前的基于内容的图像检索系统的速度和效率问题,本文提出基于分类技术的图像检索方法。本文首先介绍了基于SVM的多类图像分类的研究,然后介绍了在分类基础之上,构建的基于内容的图像检索系统的原理,最后做出评价。
- 李渝勤钟玲王昕王陈飞
- 关键词:图像分类图像检索支持向量机
- 文献传递
- 基于RSS的分布式博客搜索引擎设计
- 构建一个基于 RSS 的 P2P 分布式博客搜索引擎。利用 Pastry 协议,实现分布式博客采集系统的数据存储和传输。在各子采集系统上分别建立索引,分散了系统维护庞大索引的重负。实现分布式查询, 提高了查询响应速度。利...
- 刘莉肖诗斌王涛施水才
- 关键词:RSSPASTRY分布式搜索引擎
- 文献传递
- 句子重述技术在中文文本摘要中的应用被引量:3
- 2008年
- 本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法。首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要。实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高。
- 周强施水才李渝勤吕学强
- 关键词:相似度信息处理指代消解
- 基于多特征融合的图像检索研究
- 本文针对基于利用单一特征对图像检索的片面性,进行了基于综合颜色和纹理特征的图像检索.仅基于一种特征的方法只能表达图像的部分属性,对图像内容的描述比较片面.颜色特征充分利用了图像的色彩信息,侧重于图像整体信息的描述,纹理特...
- 邓金杰肖诗斌吕学强程涛
- 关键词:图像检索纹理特征距离函数多特征融合直方图
- 文献传递
- 基于分块和Lab颜色模型的字幕提取方法被引量:4
- 2010年
- 视频中的文本是建立视频检索的—个重要线索,因为视频中的文本总是和视频帧相关,并且客观地描述了视频帧的主要内容。根据背景区域内像素颜色变化缓慢而背景和前景交汇处像素颜色变化剧烈的原理采用对视频帧的每一行像素进行分块的方法计算每一块的变化率来检测和定位文本区域;使用Lab颜色模型来二值化图像从而提取文本图像。实验数据表明该方法效果不错,有很好的应用前景。
- 梁松涛吕学强程涛施水才
- 关键词:文本检测文本定位文本提取二值化
- 基于多特征融合的图像检索研究
- 本文针对基于利用单一特征对图像检索的片面性,进行了基于综合颜色和纹理特征的图像检索。仅基于一种特征的方法只能表达图像的部分属性,对图像内容的描述比较片面。颜色特征充分利用了图像的色彩信息,侧重于图像整体信息的描述,纹理特...
- 邓金杰肖诗斌吕学强程涛
- 关键词:图像检索纹理特征
- 文献传递
- 一种将启发式规则和HMM相结合的web信息抽取方法
- 目前web已经成为人们获取信息的主要来源,如何从web上抽取信息成为了信息抽取领域研究的热点。由于web文档是基于html语言的半结构化文档,不具备很强的统计学规律故而很难将传统的文本抽取领域中的HMM抽取模型应用在we...
- 伍丹都云程李渝勤王弘蔚
- 关键词:启发式规则WEB信息抽取文本抽取
- 文献传递
- 基于贝叶斯方法的中文垃圾邮件过滤技术综述
- 本文首先介绍了朴素贝叶斯方法的基本原理,分析了决定基于贝叶斯的中文垃圾邮件过滤器的性能的几个因素,然后比较了几种基于该方法的过滤器,最后总结了制约中文垃圾邮件过滤技术发展的两个重要因素。
- 张志斌施水才吕学强
- 关键词:贝叶斯方法邮件过滤
- 文献传递
- 基于Ontology的元搜索引擎的研究
- 文章提出了一种基于Ontology的元搜索引擎模型,它利用领域本体库对用户的查询请求进行语义层次上的扩展和优化,并对元搜索引擎结构进行了改进,从而大大提高了元搜索引擎的搜索效率。
- 封硕施水才赵捧未
- 关键词:元搜索引擎查询扩展搜索效率
- 文献传递