国家自然科学基金(60772081)
- 作品数:7 被引量:172H指数:5
- 相关作者:施水才肖诗斌王弘蔚李渝勤吕学强更多>>
- 相关机构:北京信息科技大学北京拓尔思信息技术股份有限公司大连工业大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划北京市教委科技发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于特征分选策略的中文共指消解方法被引量:2
- 2011年
- 针对基于机器学习的中文共指消解中不同类别名词短语特征向量的使用差异,提出一种基于特征分选策略的方法。该方法在选择特征向量时对人称代词和普通名词短语分别处理,充分利用不同名词短语的已有特征进行共指消解,并减少部分无效特征在共指消解过程中产生的"噪声"。实验结果表明,该中文共指消解方法能提高共指消解的性能,F值达到80.72%。
- 李渝勤甘润生杨永红施水才
- 关键词:共指消解自然语言处理支撑向量机数据词典
- 一种改进的基于《知网》的词语语义相似度计算被引量:126
- 2008年
- 中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。
- 江敏肖诗斌王弘蔚施水才
- 关键词:中文信息处理知网词语相似度
- 基于区域生长法的洪水淹没分析被引量:8
- 2009年
- 在给定相关地区的数字高程模型的条件下,根据各点高程修正测量误差造成的伪洼地,并利用区域生长法预测、模拟显示洪水淹没区。应用结果表明:洪水淹没区预测范围可以准确的计算,这为灾情评估和防洪决策提供了可靠的科学依据。
- 刘坤吕学强陈丹宗萍
- 关键词:数字高程模型区域生长法
- 面向互联网舆情的热词分析技术被引量:17
- 2011年
- 热词是一种网络词汇现象,反映了某一特定时空范围内人们普遍关注的问题。该文对热词分析的两项关键技术——热词发现和热词关联技术进行了深入的研究。在热词发现阶段,首先采用命名实体识别技术和高频串统计技术进行短语串的挖掘,继而采用基础权值和波动权值两项指标进行热度权值的计算。在热词关联阶段,按热词权值高低进行热词类的划分,通过同现率的原则确定热词类之间的关联计算。该文所采用的方法已经成功应用到TRS舆情监测系统的热点发现模块。
- 李渝勤孙丽华
- 关键词:热词命名实体识别
- 基于多特征融合的图像检索研究
- 本文针对基于利用单一特征对图像检索的片面性,进行了基于综合颜色和纹理特征的图像检索。仅基于一种特征的方法只能表达图像的部分属性,对图像内容的描述比较片面。颜色特征充分利用了图像的色彩信息,侧重于图像整体信息的描述,纹理特...
- 邓金杰肖诗斌吕学强程涛
- 关键词:图像检索纹理特征
- 文献传递
- Keyword Extraction Based on Combined Weight of News
- Based on Chinese news keyword extraction,consider the characteristics of the Chinese and defect of News Machin...
- Peng Liu Chinese Information Processing Research Center
- 基于内容图像检索的特征融合技术研究
- 传统的基于内容的图像检索主要依赖颜色、纹理、形状、空间关系等单一视觉特征,检索效果往往不够理想。本文对多特征图像检索问题进行了一定的探讨与研究,改进了单一特征距离归一化的方法,并根据归一化的距离和各个特征的权重计算出两图...
- 孙振权肖诗斌吕学强施水才
- 文献传递
- 基于新型主题信息量化方法的Web主题信息提取研究被引量:1
- 2008年
- 针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。
- 吕聚旺都云程王弘蔚施水才
- 基于内容的文档图像检索的特征抽取研究被引量:9
- 2008年
- 随着多媒体资源的飞速增长,多媒体检索技术成为当前检索技术的一个热点,该文将介绍文档图像这类特殊的多媒体资源检索技术中的特征提取方法.根据汉字特点,从几个角度,介绍了几种汉字图像块的特征提取方法及相应的相似度算法,并进行了试验测试,试验结果表明几种方法可行.
- 马永成肖诗斌林春雨施水才
- 关键词:文档图像
- 用户兴趣分类在个性化搜索引擎中的应用被引量:9
- 2008年
- 个性化搜索引擎是指在普通搜索引擎的基础上,根据用户的背景,兴趣等调整排序算法,针对不同的用户提供不同的服务。本文对搜索引擎的排序算法和用户行为进行了深入细致的研究,通过隐性方法收集用户行为信息,统计并构建用户长期兴趣模型,短期兴趣模型,时段兴趣模型等,利用向量相似度计算获取最适合用户当前状态的兴趣模型,最后将该兴趣模型结合到搜索引擎的排序算法中,影响文档得分,实现结果集的个性化排序。实验证明,该方法简单有效,可以增加搜索引擎对用户兴趣的应变能力。
- 李银松施水才张玉杰吕学强
- 关键词:信息检索个性化搜索引擎LUCENE