孟涛
- 作品数:14 被引量:71H指数:4
- 供职机构:北京大学信息科学技术学院更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术建筑科学理学文化科学更多>>
- 基于搜索引擎日志发现相近Web查询被引量:4
- 2005年
- 提出了一种利用搜索引擎日志发现高质量相近Web查询的新方法.对一个给定的查询,从日志中抽取候选查询的一些量化指标,如被查询的不同用户量、被查询的次数、用户在反馈结果中的点击次数、与给定查询间的共有词项个数、点击相同URL的个数及其分布等,用手工标记部分训练数据,进而建立一个发现有较好反馈结果的相近查询的回归模型.实验显示用该方法可得到较高的结果精度.
- 王继民彭波孟涛
- 关键词:搜索引擎用户日志
- 一个增量搜集中国Web的系统模型及其实现
- 针对中国Web的高效增量搜集,设计试验考察了网页的短期变化规律,估算出增量搜集需要的最小搜集能力.提出一个通用的增量式搜集系统模型和它的性能准则,该模型阐明了增量搜集的运行原理.针对该模型,结合北大天网增量搜集系统的开发...
- 孟涛闫宏飞王继民
- 关键词:系统模型
- 文献传递
- 利用支持向量回归确定相关Web查询被引量:1
- 2006年
- 对用户输入的查询请求,如果搜索引擎系统能给出一个相关查询列表,将有助于用户进行查询修正,进而检索到用户所需要的信息.文中提出了一种利用支持向量回归确定相关W eb查询的新方法.对一个给定的W eb查询,首先从用户的使用记录中抽取候选查询的5个量化指标:被查询的次数、被查询的用户量、用户在反馈结果中的点击次数、与给定查询间的共有词项个数和点击相同网址(URL)的个数;然后用手工标记部分训练数据,进而建立支持向量回归模型,根据相关度的大小确定相关W eb查询.实验结果表明该方法具有较高的准确度.
- 王继民彭波孟涛
- 关键词:搜索引擎用户日志支持向量回归
- 一种评价搜索引擎信息覆盖率的模型及其验证
- 搜索引擎的网页搜集子系统通常都以WWW的网页构成的有向图结构为依据,从一个网页到达它所链接的其他网页,如此递归下去,不断扩大搜集的信息覆盖面.本文以这种覆盖能力为研究对象,建立量化模型从多个角度考察网页搜集系统对WWW信...
- 孟涛闫宏飞李晓明
- 关键词:搜索引擎权值计算
- 文献传递
- 美国"SST之争"的研究
- 孟涛
- 关键词:SST公众公共决策
- 一种评价搜索引擎信息覆盖率的模型及其验证被引量:12
- 2003年
- 搜索引擎的网页搜集子系统通常以WWW的网页构成的有向图结构为依据 ,循着网页间的链接进行搜集从而扩大信息覆盖面 .本文针对这种信息覆盖能力 ,建立量化模型从多个角度考察搜集系统对WWW信息资源的覆盖程度 .文章首先分析了网页搜集不完全性的若干因素 ,在指出信息覆盖率的研究意义后提出了三类重要的信息覆盖率概念 ,然后围绕其中的数量和质量覆盖率展开研究工作 .在建立“采样 -权值计算 -验证”的覆盖率评测模型之后 ,以北大“燕穹”网页信息博物馆为考察对象并获得其网页数据 ,用不同的方式对中国Web进行采样 ;然后分别采用PageRank和HITS两种网页权值算法算出其中的重要网页作为样本 ,从量和质的角度考察“燕穹”系统的信息覆盖率 ,得到合理的数量和质量覆盖率值 ,从而验证了“燕穹”系统信息覆盖率结论的合理性和该信息覆盖率评测模型的可靠性 .
- 孟涛闫宏飞李晓明
- 关键词:搜索引擎采样权值计算
- 基于搜索引擎日志发现相近Web查询
- 提出了一种利用搜索引擎日志发现高质量相近Web查询的新方法.对一个给定的查询,从日志中抽取候选查询的一些量化指标,如被查询的不同用户量、被查询的次数、用户在反馈结果中的点击次数、与给定查询间的共有词项个数、点击相同URL...
- 王继民彭波孟涛
- 关键词:搜索引擎用户日志
- 文献传递
- 基于自动搜集技术的网页数量与演化的估计方法研究
- 本文对基于自动搜集技术的网页数量与演化的估计方法进行了研究。主要内容及结果如下:
⑴建立了一个网页覆盖率评测模型。配合该模型的应用,提出了两种网页采样方法,并使用两类典型的网页权值,分别从数量和质量的角度上分析...
- 孟涛
- 关键词:网络服务信息检索数据挖掘
- 一个增量搜集中国W eb的系统模型及其实现被引量:11
- 2005年
- 针对中国W eb的高效增量搜集,设计试验考察了网页的短期变化规律,估算出增量搜集需要的最小搜集能力。提出一个通用的增量式搜集系统模型和它的性能准则,该模型阐明了增量搜集的运行原理。针对该模型,结合北大天网增量搜集系统的开发经验,讨论了它的性能瓶颈并给出解决方案。对增量搜集的两类目标——变化网页和新网页,探讨了相应的搜集策略。介绍了该模型的实现和性能状况。该文的工作为增量搜集系统的设计和实现提供了一个成功的模型。
- 孟涛闫宏飞王继民
- 关键词:增量式系统模型
- Web搜索引擎日志挖掘研究框架被引量:4
- 2011年
- 搜索引擎日志记录了用户与系统交互的整个过程。对日志文件进行挖掘,可以发现用户进行Web搜索的行为特征与规律,有效改善搜索引擎系统的性能。在对国内外相关研究进行系统梳理和总结的基础上,文章提出了一个Web搜索引擎日志挖掘的研究框架,主要包括日志挖掘的研究内容、数据集的选择方法、数据预处理的方法、不同地域用户行为的特征与比较、如何应用于系统性能的改善等内容。
- 王继民李雷明子孟涛
- 关键词:搜索引擎用户日志WEB使用挖掘