辽宁省自然科学基金(2004D110)
- 作品数:2 被引量:5H指数:1
- 相关作者:王丫迟呈英蔡建山战学刚唐勇更多>>
- 相关机构:鞍山科技大学北京中搜在线软件有限公司燕山大学更多>>
- 发文基金:辽宁省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种适用于汉语的索引文件结构
- 2007年
- 本文给出一种以词语为索引项的索引文件存储结构,以及基于这种结构的索引查询算法.首先分析中文索引库的分布规律,接着在此基础上设计了一种逆序存储的三层索引结构,这种结构在创建索引时能根据词语频率自动调整存储顺序,最后给出一种基于自动机和逆向最大匹配的索引查询算法.实验系统T IFS将三层索引结构与B树、哈希方法在时间和空间复杂度方面进行对比,结果表明,对于大规模的中文文本检索,三层索引结构的综合效果最好.
- 王丫蔡建山唐勇
- 关键词:信息检索自适应算法
- 基于滑动窗口的动态摘要算法被引量:5
- 2007年
- 动态摘要是根据查询检索词从文章中动态提取的摘要。用户仅仅浏览动态摘要之后就能了解文章中与查询相关的部分,进而判断是否值得详细阅读整篇文章。该文根据搜索引擎对摘要速度和质量的要求,提出了一种使用滑动窗口抽取片断的算法,接着构造了摘要评测模型,使用同一个测试集对新动态摘要算法和Google、百度作对比实验。结果证明使用新方法生成的摘要能够言简意赅地概括文章的相关内容,在摘要指标的分项测试中取得了和Google基本相同的效果,但明显要比百度好,综合评价分别提高了5%和11%。
- 蔡建山迟呈英战学刚王丫
- 关键词:文本摘要