国家高技术研究发展计划(2008AA01Z421)
- 作品数:4 被引量:50H指数:4
- 相关作者:杨建武万小军肖建国黄小江吴於茜更多>>
- 相关机构:北京大学中国科学技术信息研究所更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于后缀树的Web检索结果聚类标签生成方法被引量:10
- 2009年
- 对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之前就产生好的标签,在生成了标签的基础上,再进行检索结果聚类。对于搜索引擎返回的结果,我们先统一建立一棵后缀树,然后计算后缀树中各个短语的得分,选取得分最高的若干短语作为候选标签。得到标签后,将搜索引擎返回的各个结果项分配到它所包含的标签对应的分类中,形成最后的聚类。实验表明,我们的方法是比较有效的。
- 骆雄武万小军杨建武吴於茜
- 关键词:计算机应用中文信息处理检索结果聚类后缀树
- 一种统一的Web新闻对象自动抽取方法被引量:4
- 2012年
- 提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。
- 刘伟严华梁
- 关键词:WEB数据抽取视觉特征网页模板新闻属性
- 基于核方法的XML文档自动分类被引量:16
- 2011年
- 支持向量机(SVM)方法通过核函数进行空间映射并构造最优分类超平面解决分类器的构造问题,该方法在文本自动分类应用中具有明显优势.XML文档是文本内容信息与结构信息的综合体,作为一种新的数据形式,成为当前的研究热点.文中以结构链接向量模型为基础,研究了基于支持向量机的XML文档自动分类方法,提出了适合XML文档分类的核函数及其参数的学习方法,从而将XML文档的结构分析与内容分析有机地结合起来.在INEX数据集上的测试结果表明,该方法的分类准确性明显高于INEX评测中所公布各方法的评测结果.
- 杨建武
- 关键词:XML文档文档分类核函数支持向量机文档模型
- 基于后缀树的Web检索结果聚类标签生成方法
- 对检索结果进行聚类能够方便用户从搜索结果中快速的找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。本文提出了一种新的思路,注重于如何在聚类之...
- 骆雄武万小军杨建武吴於茜
- 关键词:检索结果聚类后缀树
- 文献传递
- 多文档摘要系统中句子排序研究
- 多文档摘要系统中旬子捧序问题一直是文档自动摘要系统中一项重要而艰巨的任务。传统的摘要句排序方法假设各句子在语义上是相互独立的,只简单利用句子的时间特征和在原文档中的位置特征来排序,效果较差。为了获取两个句子之间的语义先后...
- 贾候萍万小军黄小江杨建武肖建国
- 关键词:多文档摘要
- 文献传递
- 汉语比较句识别研究被引量:20
- 2008年
- 比较是常见的表达方式,提取事物之间的比较关系是一项新颖而有实用价值的研究。识别自然语言中的比较句,是提取比较关系的一个重要步骤。目前还没有针对汉语比较句的自动识别研究,语言学上比较句的哪些特征能够应用到自动识别上来是一个亟待研究的问题。该文讨论了汉语比较句的范畴、外延和特征,定义了汉语比较句识别的任务,并提出用SVM分类器将汉语句子分为"比较"和"非比较"两类。该文比较了比较句的语言学特征和统计特征,包括特征词、序列模式等在分类中的作用。实验结果表明:基于类序列规则的SVM分类器能够有效地识别汉语比较句,效果优于传统基于词的文本分类。
- 黄小江万小军杨建武肖建国
- 关键词:计算机应用中文信息处理文本分类