梁鹏
- 作品数:2 被引量:12H指数:2
- 供职机构:燕山大学信息科学与工程学院更多>>
- 发文基金:河北省教育厅自然科学基金教育部科学技术研究重点项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于提取关键词的中文文档复制检测研究被引量:9
- 2007年
- 文档复制检测技术在保护知识产权和信息索引中起重要作用,它可以防止剽窃事件的发生,提高互联网检索效率。目前,英文复制检测技术已经比较成熟,但中文复制检测技术研究还处于起步阶段。本文提出一种基于关键词的指纹提取方法;提出k-words方法分解句子;定义了数字指纹树概念,并用数字指纹树来存储指纹。最后,用实验验证了所提出的方法。
- 麻会东刘国华李旭梁鹏刘春辉张凌宇
- 关键词:指纹剽窃文本块
- 文档复制检测技术被引量:4
- 2007年
- 随着数字图书馆和互联网的飞速发展,数字化文档唾手可得。近年来学术剽窃现象屡见报端,互联网上日益增多的重复网页降低了检索效率,给用户带来不便。文档复制检测技术在保护知识产权和优化搜索引擎方面起着重要作用,是近年来数据库安全领域研究的热点。文档复制检测方法有两类:一是基于词频统计的方法,一是基于字符串匹配的方法。本文详尽分析了现有基于这两类方法的复制检测技术,并指出它们的优缺点,针对两类方法都存在的问题提出一些改进方案。最后总结了复制检测技术应满足的特性,讨论了检测方法的准确性和文档分解规则。
- 麻会东刘国华梁鹏苑迎
- 关键词:剽窃指纹文本块