您的位置: 专家智库 > >

徐凯

作品数:1 被引量:0H指数:0
供职机构:江西农业大学计算机与信息工程学院更多>>
发文基金:国家自然科学基金国家科技支撑计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇TWITTE...

机构

  • 1篇中国科学院
  • 1篇江西农业大学

作者

  • 1篇李阳
  • 1篇王晓岩
  • 1篇沙瀛
  • 1篇徐凯

传媒

  • 1篇计算机工程与...

年份

  • 1篇2014
1 条 记 录,以下是 1-1
排序方式:
Twitter中重复消息的分析和处理
2014年
Twitter已经成为微博中的代表性应用,但是通过分析发现twitter上的消息(推文)有很多完全一致或相似,这对后续对推文的分析和存储都带来很大的问题。为了处理这些内容完全一致或相似的消息(推文),针对推文特有的短文本的特点,基于规则处理完全一致的推文,采用simhash的方法来处理相似性的推文。实验采用实际抓取的240万条推文数据进行分析和处理,分别对中文和英文的推文重复情况进行了分析,实验结果发现重复的推文占总推文的10%左右。
徐凯沙瀛李阳单既喜王晓岩
共1页<1>
聚类工具0