岳大鹏
- 作品数:3 被引量:5H指数:2
- 供职机构:国防科学技术大学计算机学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于词向量语义聚类的微博热点挖掘方法被引量:2
- 2018年
- 随着社交媒体的迅速发展,信息过载问题越发严重,因此如何从海量、短小而充满噪声的社交媒体数据中发现和挖掘出热点话题或者热点事件成为一个重要的问题。结合社交媒体数据实时性、地理性、包含较多元数据等特点,提出了用户行为分析与文本内容分析相结合的热点挖掘方法。在内容分析过程中,提出了从更细的词语粒度进行聚类,以代替传统的在消息粒度进行聚类的经典方法。为了提高话题关键词提取的效果,引入了基于词向量技术,并通过语义聚类的方法进行热点挖掘。在真实数据集上的实验结果表明,该方法提取的关键词语义关联性强、话题划分效果好,在主要指标上优于传统的热点挖掘方法。
- 刘培磊唐晋韬王挺谢松县岳大鹏刘海池
- 关键词:社交媒体语义聚类
- 基于话题的多文档文摘技术研究
- 互联网技术的飞速发展,使得现存的文献与知识呈几何式增长。多文档文摘技术能够帮助人们从大量文本中获取重要的信息,同时能有效缩减用户阅读所花费的大量时间和工作量,因而在这个信息爆炸的时代有非常重要的应用价值。目前,新闻报道往...
- 岳大鹏
- 关键词:多文档文摘自然语言处理新闻
- 文献传递
- 一种针对新闻话题的多文档文摘技术被引量:3
- 2012年
- 多文档文摘技术能帮助用户减少不必要的阅读时间,有广阔的应用前景。该文以新闻报道为处理对象,以MMR(Maximal Marginal Relevance)文摘提取算法为基础,针对目前新闻报道往往以专题形式组织展现的特点,提出了一种基于话题的多文档文摘方法。这种方法以话题关键字为打分依据,同时考虑句子位置特征等信息对句子的重要性进行评分。该文利用TDT4的新闻报道语料对上述文摘方法进行了试验评价,将基于话题的文摘系统和两个Baseline文摘系统进行比较,取得了较好的实验结果,尤其在5%的压缩比例下有明显优势。
- 岳大鹏饶岚王挺
- 关键词:自动文摘自然语言处理新闻