单松巍
- 作品数:8 被引量:295H指数:5
- 供职机构:北京大学更多>>
- 发文基金:国家重点基础研究发展计划“九五”国家科技攻关计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 几种典型特征选取方法在中文网页分类上的效果比较被引量:112
- 2003年
- 针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使用普通英文文本和中文网页评测特征选取方法的结果是一致的。
- 单松巍冯是聪李晓明
- 关键词:中文网页分类特征选取评测
- 基于Web挖掘的个性化技术研究被引量:61
- 2004年
- 针对用户特性向用户提供个性化服务已经成为Web技术的研究热点。Web挖掘是实现Web个性化服务的关键技术之一。研究了Web挖掘技术,阐述了Web挖掘技术存在的不足,并对应用Web挖掘技术实现个性化服务的发展前景进行了分析。
- 冯是聪单松巍张志刚龚笔宏李晓明
- 关键词:WEB挖掘个性化服务用户建模代理人工智能
- “天网”目录导航服务研究被引量:18
- 2004年
- 为了提高搜索引擎的查准率 ,帮助用户快速地定位其感兴趣的网页 ,研究了如何在Spider式搜索引擎“天网”系统中提供目录导航服务 基本思想就是利用有指导的机器学习方法实现中文网页的自动分类 主要贡献有两点 :①搜集并建立了一个面向中文网页并且支持层次模型的大规模中文网页数据集 ,这是实现中文网页自动分类的前提和基础 ;②针对中文网页信息的自身特性以及CHI方法的固有缺陷 ,提出一种自动清除“噪音”的特征选取算法 ,并实现了一个能够处理海量中文网页的分类器 实验结果表明该分类器有较高的分类质量 。
- 冯是聪单松巍龚笔宏张志刚李晓明
- 关键词:搜索引擎WEB挖掘中文网页分类
- 第三代搜索引擎与天网二期被引量:30
- 2001年
- 论述了三代搜索引擎的发展 ,着重介绍了第三代搜索引擎的体系结构 ,详细讨论了该搜索引擎的几个核心技术———大规模搜集技术、超链分析技术和用户行为分析技术。介绍了作者参与研发的第三代搜索引擎———“天网”的研究进展 。
- 雷鸣王建勇赵江华单松巍陈葆珏
- 关键词:WWW搜索引擎信息检索超链分析用户行为分析
- 判断一组查询关键字或词在网页中位置相关性的方法
- 一种判断一组查询关键字或词在网页中位置相关性的方法,其特征在于:搜索引擎系统为每个关键字或词计算出其在网页中的前向相邻字/词和后向相邻字/词;依据上述信息判断在用户查询项中相邻的字/词是否在网页中也相邻;如果完全相邻,则...
- 王建勇李晓明谢正茂单松巍赵江华
- 文献传递
- 搜索引擎的日志分析:方法、技术和应用
- 该文试图通过分析"天网"搜索引擎的日志来得到用户访问"天网"系统的一般性规律,并从分析结果出发改造搜索引擎.为此,我们安排了两组实验,一组实验是试探性的,我们统计了用户访问"天网"系统的查询、翻页、点击行为,希望从中得到...
- 单松巍
- 关键词:搜索引擎日志分析
- 海量Web搜索引擎系统中用户行为的分布特征及其启示被引量:77
- 2001年
- 统计分析了大规模搜索引擎系统的用户行为的分布特征 .结果表明 ,用户查询内容和URL点击表现出明显的局部性 ;用户查询的分布符合幂函数的特征并具有良好的自相似性 .基于上述规律 ,设计了查询cache ,比较了FIFO ,LRU及带衰减的LFU等 3种cache替换策略 .然后 ,基于用户行为考察了海量网页信息的分布特征 ,并利用URL的入度、镜像度、目录深度等网页参数与用户行为反馈后的相关度的方差分析 ,阐明了其对优化搜索引擎系统定序算法 (rankingalgorithm)的启示 .
- 王建勇单松巍雷鸣谢正茂李晓明
- 关键词:万维网搜索引擎系统WEB网页用户行为用户查询
- 判断一组查询关键字或词在网页中位置相关性的方法
- 一种判断一组查询关键字或词在网页中位置相关性的方法,其特征在于:搜索引擎系统为每个关键字或词计算出其在网页中的前向相邻字/词和后向相邻字/词;依据上述信息判断在用户查询项中相邻的字/词是否在网页中也相邻;如果完全相邻,则...
- 王建勇李晓明谢正茂单松巍赵江华
- 文献传递