国家教育部博士点基金(20090041110002)
- 作品数:50 被引量:436H指数:11
- 相关作者:林鸿飞杨亮杨志豪王健林原更多>>
- 相关机构:大连理工大学中国刑警学院山东省农业管理干部学院更多>>
- 发文基金:国家教育部博士点基金国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学哲学宗教语言文字更多>>
- 基于权重标准化SimRank方法的查询扩展技术研究被引量:6
- 2011年
- 查询扩展是信息检索中的一项重要技术。传统的局部分析查询扩展方法利用伪相关文档作为候选词集合,然而部分伪相关文档并不具有很高的相关性。该文利用真实的搜索引擎查询日志,建立了查询点击图,经过多次图结构的转化得到能够反映词之间关联程度的词项关系图,并在图结构的相似度算法SimRank的基础上,提出了一种基于权重标准化的改进SimRank方法,该方法利用词项关系图中词项的全局和间接关系,能够有效挖掘与原始查询相关联的扩展词。同时,为降低SimRank算法的计算复杂度,该文采用了剪枝等策略进行优化,使得计算效率有大幅提高。在TREC标准数据集上的实验表明,该文的方法可以有效地选择相关扩展词。MAP指标较局部分析查询扩展方法提高了1.81%,在P@10和P@20指标评价中效果分别提高了5.44%和3.73%。
- 马云龙林原林鸿飞
- 关键词:搜索引擎查询扩展查询日志SIMRANK
- 基于LDA模型的博客垃圾评论发现被引量:25
- 2011年
- Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长,因此如何识别垃圾评论成为面临的重要问题。该文首先借鉴处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而识别Blog空间的垃圾评论。通过实验验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog信息更加准确、有效的为用户使用。
- 刁宇峰杨亮林鸿飞
- 关键词:BLOG博文LDA主题垃圾评论
- 基于资讯价值的股票资讯移动订阅系统
- 2010年
- 本文针对当前股票资讯服务中存在的实时性差、个性化缺乏和准确性不足等问题,设计并实现了一个基于资讯价值的股票资讯移动订阅系统。系统应用开源的Lucene和Weblech工具进行垂直搜索获取资讯,根据经济学知识构建个性化股票本体,通过查询扩展、本体匹配生成个性化的RSS种子,依据资讯价值进行排序,在移动端使用KXML进行解析,实现了资讯订阅。实验结果证明,本系统提供的股票资讯服务是有效的。
- 张清华林鸿飞
- 关键词:本体个性化股票
- 一种基于位置优化的排序学习方法被引量:2
- 2012年
- 如何设计有效的相关性排序函数是信息检索研究的一个核心问题,因为排序函数直接影响着搜索结果的质量。排序函数的好坏一般由信息检索评价方法进行评估,对其进行优化的主要困难是这些方法都依赖于结果文档的排序位置,因此对于查询的结果返回列表中相关文档的位置的研究是十分重要的。通过探索相关文档和不相关文档之间的偏序关系构造新的输入样本;该样本是由一个相关文档和一组不相关文档所构成的,它能够更加有效的区分文档的相关性;基于该输入样本,通过定义位置损失函数对排序结果进行优化。在公开数据集Letor3.0的上的实验结果显示该方法可以将多种排序评价方法的准确率平均提高2%,证明了所提出的方法的有效性。
- 林原林鸿飞张平
- 关键词:信息检索
- 蛋白质关系网络可视化系统的研究与实现
- 2011年
- 蛋白质关系网络的研究在生物医学领域中已成为一个热点。研究者通过对蛋白质关系网络进行分析和聚类,能够发现其中的复合体,进一步理解细胞组织原理。在对关系网络进行分析的过程中,将网络拓扑显示为图形,以直观地表示出关系网络的结构,便于对比聚类方法,辅助关系网络的研究。利用网络建模与可视化工具包JUNG设计并实现了一个蛋白质关系网络可视化系统,它能够解析多种格式的蛋白质关系网络数据,集成了几种有效的图聚类算法,并实现了一种基于蛋白质功能标注的发现复合体的聚类算法。用户能够通过二维网络视图方便地观察原始网络和聚类后的结果。
- 王健谢冬杨志豪林鸿飞
- 关键词:网络可视化
- 基于改进潜在语义分析的跨语言检索被引量:14
- 2010年
- 该文采用基于SVD和NMF矩阵分解相结合的改进潜在语义分析的方法为生物医学文献双语摘要进行建模,该模型将英汉双语摘要映射到同一语义空间,不需要外部词典和知识库,建立不同语言之间的对应关系,便于在双语空间中进行检索。该文充分利用医学文献双语摘要语料中的锚信息,通过不同的k值构建多个检索模型,计算每个模型的信任度,使得多个模型都对查询和文本的相似度做出贡献。在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算,实现了双语摘要的跨语言检索。
- 宁健林鸿飞
- 关键词:计算机应用中文信息处理语义空间跨语言检索SVDNMF
- 基于LDA模型的餐馆评论排序被引量:8
- 2011年
- 在餐馆评论中,存在评论文本未明确指出评价等级及评论文本不一致等问题。为此,提出一种基于LDA模型的餐馆评论排序方法。利用LDA模型对评论文本进行主题抽取,过滤掉不相关评论,基于过滤后的用户评论和用户给出的评论等级计算餐馆评论若干方面的得分,在该得分的基础上,利用逻辑回归进行训练,得到餐馆评论排序模型。实验结果表明,该方法的排序效果较优。
- 吕韶华杨亮林鸿飞
- 关键词:LDA模型排序逻辑回归
- 基于组块分析的评价对象识别及其应用被引量:4
- 2011年
- 观点挖掘技术旨在面向更为广阔的产品领域,从文本中自动获取观点所评价的对象,并有针对性地分析评论的倾向性。本文通过建立ChunkCRF模型对观点表达句中显式观点评价对象的识别;借助句法关系对句中出现多个评价对象的问题进行处理;利用语义搭配习惯对隐式评价对象进行填充生成。在此基础上,本文实现了基于观点评价对象的观点抽取与观点倾向性识别。实验结果表明,本文方法可有效地用于提高观点分析的精度。
- 杨亮潘凤鸣林鸿飞
- 基于情感分布的微博热点事件发现被引量:65
- 2012年
- 微博(Micro-Blog,Twitter)是互联网上的一种重要媒体,以简短、便捷的方式表达用户的观点,并实现多发布工具即时分享,已经成为热点事件产生和传播的重要场所,因此微博平台中热点事件发现等方面研究的重要性便突显出来了。该文依据热点事件的出现会使用户所发微博中情感词数量增多,情感发生变化,提出了情感分布语言模型,通过分析相邻时段间情感分布语言模型间的差异,实现对热点事件的发现。实验结果表明该文方法可以有效地从微博平台中发现热点事件,并且有助于对微博平台中热点事件的管理和监控。
- 杨亮林原林鸿飞
- 基于随机游走的就业推荐系统研究与实现被引量:10
- 2011年
- 目前,各高校的就业指导工作尚不完善,许多毕业生在求职初期缺乏目的性和针对性,在应聘并不适合自己的企业上耗费了大量的时间和精力,由此导致就业难度加大。在此情况下,我们设计开发了高校毕业生就业推荐系统。系统从大连理工大学就业实际工作出发,通过比较应届和往届毕业生基本特征,并结合基于随机游走模型的PageRank算法获得的各个企业的"求职指数",将招聘企业排序后推荐给每一名毕业生。通过测试,本系统功能上符合设计初衷,能够向毕业生推荐适合的企业,可以提升毕业生求职的针对性和目的性,并大大减少其在获取招聘信息上的时间投入。
- 吴迪周利娟林鸿飞
- 关键词:随机游走PAGERANK就业推荐