您的位置: 专家智库 > >

姜雪

作品数:1 被引量:3H指数:1
供职机构:中国工程物理研究院计算机应用研究所更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇语义
  • 1篇指纹
  • 1篇文本
  • 1篇互信息
  • 1篇基于语义

机构

  • 1篇中国工程物理...

作者

  • 1篇万正景
  • 1篇陶以政
  • 1篇梁燕
  • 1篇姜雪

传媒

  • 1篇电脑知识与技...

年份

  • 1篇2016
1 条 记 录,以下是 1-1
排序方式:
基于语义指纹的海量文本快速相似检测算法研究被引量:3
2016年
相似检测算法在海量文本信息处理中具有广泛的应用,尤其是Simhash算法因其指纹局部敏感特性、检测效率高在文本查重、网页检测等大规模数据处理中都十分常见。针对传统Simhash算法无法支持近义词、多义词等自然语言处理上的语义问题,通过对现有同义词扩展方案的研究,提出基于语义指纹的相似检测算法。在Simhash算法基础上,融入同义词扩展编码信息,生成文本语义指纹进行匹配检测,以提高文本相似度检测性能。另外,根据文本语义指纹建立多层分段索引,实现在海量文本信息中快速匹配出相似文档。通过与传统的Simhash算法进行实验对比,体现出该方法在准确率、效率等方面的优势。
姜雪万正景梁燕陶以政
关键词:互信息
共1页<1>
聚类工具0