国家级星火计划(2012GA750007)
- 作品数:4 被引量:23H指数:3
- 相关作者:张乃洲曹薇李石君潘君更多>>
- 相关机构:河南财经政法大学武汉大学武汉职业技术学院更多>>
- 发文基金:河南省教育厅科学技术研究重点项目国家级星火计划河南省基础与前沿技术研究计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于节点密度分割和标签传播的Web页面挖掘方法被引量:13
- 2015年
- 获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性.
- 张乃洲曹薇李石君
- 关键词:页面分割节点密度DOM树块分类社会计算
- 一种基于时间感知的搜索引擎模型被引量:1
- 2013年
- 目前许多用户查询与网页信息的时效性密切相关,但当前的搜索引擎在处理许多具有时间属性的查询时还不尽如人意。通过引入基于时间感知的用户查询理解、索引结构和页面排序算法,提出一种基于用户查询日志挖掘的时间感知搜索引擎模型,来克服当前主流搜索引擎在处理具有时效性查询时存在的不足。在真实的Web环境下广泛进行的实验结果表明了该模型的有效性。
- 张乃洲曹薇陈珂锐李石君
- 关键词:搜索引擎模型页面排序
- 基于扩展特征向量空间模型的多源数据融合被引量:5
- 2013年
- 本体资源的扩充是自然语言处理的关键问题之一。传统的从单一数据源获取的信息其覆盖率较低,亟需建立一个整体的数据管理平台,对数据资源分类存储与整理。为此提出了AVP数据平台,构建AVP平台所面临的重要问题是多源数据的融合,即将不同来源的网站数据进行语义角色标注,对歧义词条进行识别判断,并最终归并到以义项为基本单位的数据仓库中;为解决多源数据融合的语义角色标注问题,给出了一种自动语义判歧方法。其基本思想是利用词条中的属性值对作为特征模板,并借助于属性值的共现概率,应用扩展向量空间模型对词条进行歧义识别。通过大量的实验对比可知,该系统在各方面均取得优异的成绩,所提出的算法能够很好地解决多源数据融合中的语义判歧问题。
- 陈珂锐潘君
- 关键词:自然语言处理本体多源数据融合
- 基于时间点击图挖掘的查询建议方法被引量:4
- 2015年
- 采用查询建议技术表现用户查询意图的多样化,并自动向用户提供多种选择,是当前搜索引擎普遍的做法。但当前的查询建议研究鲜有考虑时间因素对生成查询建议的影响,而实际上在很多情况下,用户的查询意图会随着时间的推移发生改变。为此,根据时间点击图挖掘原理提出一种查询建议方法。对原始的查询日志文件进行预处理,生成时间点击图。对时间点击图进行非连通子图检测和图的合并操作,以降低或消除图的非连通性。采用基于随机游走模型的图挖掘算法,生成给定查询的查询建议集。在真实的Web环境下进行实验,结果表明,利用该方法能够提高查询建议的精度和差异度,从而生成更加可靠的查询建议。
- 张乃洲
- 关键词:查询意图随机游走模型查询日志搜索引擎