茹立云
- 作品数:42 被引量:255H指数:9
- 供职机构:清华大学更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于伪反馈与分类的文本检索
- 查询空间与文档空间的不匹配是文本检索中的一大难题,在句子级别的检索中表现尤为突出。为解决这个问题而提出的查询扩展方法本身存在着难以解决的困扰。基于分类的方法绕过了这一难题,成为实现句子检索的一个可行方法。实际中使用分类方...
- 王灿辉茹立云张敏马少平
- 关键词:文本检索
- 基于群体智慧的Web访问日志会话主题识别研究被引量:5
- 2011年
- Web访问日志中的会话(session)是指特定用户在一定时间范围内的访问行为的连续序列。会话主题(topic)是指会话中具有相同用户意图的部分。从会话中进一步识别出能体现用户意图的处理单元(topic)是进行用户访问行为分析的重要基础。目前相关工作主要集中在边界识别上,无法处理用户意图交叉情况。为了解决该问题,该文重新形式化定义了session和topic的相关概念,提出最大划分的求解任务,并设计出了基于用户群体智慧的会话主题识别算法。在使用大规模真实Web访问日志的实验中,我们的算法取得了不错的效果。
- 方奇刘奕群张敏茹立云马少平
- 关键词:WEB访问日志
- 基于用户浏览图的网页质量评估方法的比较分析
- 面对海量繁杂的网络数据环境,网页质量评估成为互联网搜索引擎面临的主要技术挑战之一,当前针对互联网网页评估的主要研究思路是基于网络超链接结构的分析完成。然而,Web2.0、搜索引擎结果优化(SEO),网络作弊等现象的出现严...
- 薛宇飞刘奕群张敏马少平茹立云
- 关键词:PAGERANK
- 面向用户互联网访问日志的异常点击分析
- 随着互联网用户量的爆炸性增长,用户行为分析已经成为互联网技术领域广泛应用的研究方法,如信息检索,网络安全,电子商务,广告投放等等。在这些不同的领域里,用户行为分析都有一个共同的目的:即通过用户行为日志分析来挖掘用户行为蕴...
- 王倩刘奕群马少平茹立云
- 关键词:用户行为分析
- 基于用户日志挖掘的搜索引擎广告效果分析被引量:17
- 2008年
- 随着搜索引擎市场的飞速发展,竞价排名广告以其有效、低风险、灵活等特点逐渐受到中小企业用户的青睐,成为搜索引擎稳定的收益增长点。然而竞价排名广告是否会影响用户体验,从而削弱其宣传效果并且影响用户对于搜索引擎的忠实度成为了企业及搜索引擎所担忧的问题。该文从网络用户日志中挖掘出网络用户对于广告的实际交互行为,并给出了各大搜索引擎竞价排名广告方面的统计数据。对于企业用户如何更有效地利用竞价排名广告以及搜索引擎如何平衡广告的经济效益和用户体验之间的关系都有较高的指导意义。
- 陈磊刘奕群茹立云马少平
- 关键词:计算机应用中文信息处理搜索引擎用户行为分析
- 长尾查询搜索性能评价方法的研究
- 2014年
- 各大搜索引擎公司都致力于准确而快速的帮助用户找到信息目标,搜索性能评价变得非常重要,而目前尚无对长尾查询性能评价的方法。该文通过分析长尾查询结果数据,提取了长尾查询三种类型特征,并对特征进行叠加分析。进一步地针对数据集的严重不平衡问题提出两种数据平衡方法。最后提出并改进了长尾查询评价方法。在真实搜索引擎结果数据集上的实验验证了所提出的评价方法取得一定的评价效果,其中对不相关文档的评价取得较高的准确率。
- 霍帅张敏刘奕群马少平金奕江茹立云
- 搜索引擎索引网页集合选取方法研究被引量:9
- 2014年
- 随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1/3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求.
- 茹立云李智超马少平
- 关键词:搜索引擎文本聚类线性回归模型
- 面向用户行为的页面质量评估
- 2010年
- 页面质量评估在搜索引擎系统中具有极其关键的作用,传统的方法是基于页面链接关系进行页面质量评估。但由于当前Web环境的复杂性,传统方法已经难以适应当前的Web环境,近年来,用户行为被用来弥补完全依赖链接关系方法的不足。用户行为可以分为两类:浏览行为和搜索行为。利用浏览行为构造了用户浏览图;提出了一种利用用户搜索行为的新方法,此方法构造了用户搜索图;合并用户浏览图和用户搜索图得到用户浏览搜索图。实验表明用户浏览搜索图的性能比较接近用户浏览图的性能,并超过全网的性能,同时用户浏览搜索图能够评价的页面数要大于用户浏览图。
- 王晓光刘奕群金奕江岑荣伟马少平茹立云
- 关键词:用户行为
- 面向浏览推荐的网页关键词提取被引量:4
- 2012年
- 在网页浏览推荐任务中,如何利用网页内容选取合适的推荐关键词是具有挑战性的研究热点.为了实现有效的关键词推荐方法,利用大规模的真实网络用户浏览行为数据,以及相关提取算法和新词发现算法实现并比较了基于领域关键词提取技术和基于查询词候选集合的关键词推荐方法.实验结果证明,2种方法都能够有效地表征用户信息需求,而第1种推荐方法的准确率更高,具有更好的推荐性能.
- 闫兴龙刘奕群马少平张敏茹立云
- 关键词:关键词提取网页关键词
- 基于用户行为的长查询用户满意度分析被引量:5
- 2012年
- 搜索引擎性能评估是信息检索界一个重要课题.长查询具有较为丰富的信息内容,能更加准确地描述用户的信息需求.在此基础上文中提出长查询用户满意度分析的整体框架,定义用户满意度的概念,并在用户日志中提取相关用户行为特征,应用决策树和SVM两种分类算法评测用户满意度.在大规模商业搜索引擎日志上完成的实验结果证明了这套评价体系的有效性.结果表明,用户对于查询满意和不满意的分类准确率分别达到86%和70%.
- 朱彤刘奕群茹立云马少平
- 关键词:用户行为分析用户满意度学习算法