杨建武
- 作品数:31 被引量:251H指数:9
- 供职机构:北京大学计算机科学技术研究所更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术经济管理语言文字更多>>
- 基于语义拓扑网的反馈学习技术被引量:1
- 2005年
- 为了从海量数据中快捷有效地获取所需的信息,提出了语义拓扑网的概念以及基于语义拓扑网的反馈学习方法。通过将数据对象的内容特征与语义特征进行有机地结合并构成语义拓扑网。在反馈过程中利用语义拓扑网,不断学习记忆并指导搜索。实验表明,基于语义拓扑网的反馈系统具有良好的学习能力与记忆能力,能有效地提高检索系统的性能。
- 杨建武万小军
- 基于倒排索引的文本相似搜索被引量:9
- 2005年
- 根据文本向量的维分布的稀疏性,提出了基于倒排索引的文本相似搜索算法。该算法通过倒排索引进行维过滤,快速获得尽量小的目标集的超集。实验表明,在海量文本环境下,该方法虽略微损失准确度,但其速度远远高于传统基于多维索引的算法。
- 杨建武陈晓鸥
- 关键词:相似搜索倒排索引多维索引
- 半结构化文档集的结构化处理及其Web发布
- 本文首先对结构化半结构化文档的特点进行了研究总结,提出了利用光验知识进行模式提取及文档集的批量结构化处理的模型,然后重点讨论了该模型中先验知识的表达和关键算法,最后结合作者主持开发的国家重点工程对文档的结构化处理及其应用...
- 杨建武陈晓鸥
- 关键词:WEB发布可扩展标记语言
- 文献传递
- 基于后缀树的Web检索结果聚类标签生成方法被引量:10
- 2009年
- 对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之前就产生好的标签,在生成了标签的基础上,再进行检索结果聚类。对于搜索引擎返回的结果,我们先统一建立一棵后缀树,然后计算后缀树中各个短语的得分,选取得分最高的若干短语作为候选标签。得到标签后,将搜索引擎返回的各个结果项分配到它所包含的标签对应的分类中,形成最后的聚类。实验表明,我们的方法是比较有效的。
- 骆雄武万小军杨建武吴於茜
- 关键词:计算机应用中文信息处理检索结果聚类后缀树
- 在线新闻主题检测系统的设计与应用
- 利用主题检测技术可以从海量新闻信息中实时检测到主题信息,从而将新闻信息按照主题组织并加以利用.文中通过改进加窗策略,采用自适应倒排文档频率,设计了一个中文新闻主题检测系统并进行了实验.结果表明了该系统的有效性.该系统在新...
- 万小军杨建武
- 关键词:主题检测增量式聚类算法
- 文献传递
- 在线新闻主题检测系统的设计与应用被引量:9
- 2004年
- 利用主题检测技术可以从海量新闻信息中实时检测到主题信息,从而将新闻信息按照主题组织并加以利用.文中通过改进加窗策略,采用自适应倒排文档频率,设计了一个中文新闻主题检测系统并进行了实验.结果表明了该系统的有效性.该系统在新华网数据中心的成功应用进一步表明系统达到了实用需求.
- 万小军杨建武
- 关键词:主题检测增量式聚类算法
- 基于搜索引擎摘要的词汇语义褒贬计算
- 语义褒贬分析是文本情感分析研究的基础。针对目前主流搜索引擎均不支持NEAR操作符而AND关系性能较差的情况,本文提出了一种新的基于搜索引擎摘要的词汇语义褒贬计算方法。该方法利用与查询词相关的搜索引擎摘要中的词汇共现关系,...
- 路斌万小军杨建武陈晓鸥
- 关键词:情感分析搜索引擎
- 一种基于SVM的多层分类策略被引量:9
- 2005年
- 提出了一种新的基于反例文档选择的多层分类策略1-vs-brothers。与原策略相比,该策略在训练阶段仅仅选择兄弟节点包含的样例文档作为反例,从而减少了较深层次节点需要学习的文档。实验结果表明,在该文的实验条件下,基于该策略的算法使得训练效率提高了60%,而分类精度却基本上保持不变。该策略还可以用在1-vs-1之上形成1-vs-brother策略,用来减少多层分类情况下节点训练时需要对比学习的节点数目。
- 路斌杨建武陈晓鸥
- 关键词:支持向量机
- 半结构化文档集的结构模式提取的研究与实现被引量:12
- 2001年
- 提出了通过结构模式提取,在信息源对缺失信息进行恢复与重构的思想,给出了结构模式提取模型,并讨论了实现该模型的关键步骤与算法,最后结合基于该模型实现的系统对半结构化文档集的结构模式提取及其应用进行了总结。该研究成果已成功应用于实际系统中。
- 杨建武陈晓鸥
- 关键词:WEBINTERNET
- 基于后缀树的Web检索结果聚类标签生成方法
- 对检索结果进行聚类能够方便用户从搜索结果中快速的找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。本文提出了一种新的思路,注重于如何在聚类之...
- 骆雄武万小军杨建武吴於茜
- 关键词:检索结果聚类后缀树
- 文献传递