国家自然科学基金(60903139)
- 作品数:3 被引量:23H指数:2
- 相关作者:程学旗满彤曹鹏李静远刘悦更多>>
- 相关机构:中国科学院中国科学院研究生院首都师范大学更多>>
- 发文基金:国家自然科学基金河北省高等学校科学技术研究青年基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于维基百科的短文本语义扩展方法研究被引量:2
- 2014年
- 面对短文本信息内容稀疏、上下文语境提取困难的挑战,基于维基百科的结构化信息特征,提出一种利用NMF算法来扩展短文本语义的方法。通过自动识别与短文本信息语义特征相关的维基百科概念来丰富它的内容,从而有效提高短文本信息数据挖掘和分析的效果。实验结果表明与已有方法相比,应用此方法可以进一步提高短文本信息语义扩展的效率和准确率。
- 韩冬雷金花朱亚涛刘金刚
- 关键词:非负矩阵分解锚文本语义相似度
- Twitter中近似重复消息的判定方法研究被引量:16
- 2011年
- 微博客是Web2.0出现以来的一个新生概念。著名的Twitter系统是微博客中具有代表性的一个,其全球用户已经超过1.6亿,在世界范围内具有重要影响力:目前知名政治家、社会名流和大企业几乎都是Twitter的用户。Twitter系统中的消息小于140个字符,而且语法不规范。同时,由于Twitter允许用户以多种格式自由转发消息,系统中存在大量内容重复或近似重复的消息。重复消息的存在加重了系统存储的负担,对用户阅读、理解以及分析消息的内容也造成了不利影响。该文分析了Twitter系统中转发消息的语法特点,并利用这些语法特点提取规则,把转发的消息变成普通消息。该文还提出统计字符种类和最短编辑距离两种字符串距离计算的方法以判定Twitter中近似重复的消息。该文还分析了Twitter消息发送的方式以及不同登录方式的消息特征。实验结果表明,两种方法具有扩展性强、实现简单、效率高等优点,能够有效地检测Twitter上的信息重复现象。
- 曹鹏李静远满彤刘悦程学旗
- 关键词:TWITTER
- 基于吸收马尔可夫链的子话题发现方法被引量:5
- 2014年
- 受互联网文本信息话题内容多元性,演化性等特点的影响,传统的话题检测模型对子话题粒度的选取和检测质量很难保证。针对该问题,该文提出一种基于吸收马尔可夫链的子话题划分算法,该算法对基于网页聚类生成的话题关键词进行组合生成子话题,并以吸收马尔可夫链对子话题进行吸收衍化,进行重排序生成结果子话题。实验结果表明,该算法能同时保证生成子话题的重要性和多样性。
- 魏明川朱俊杰张瑾张凯程学旗任彦