您的位置: 专家智库 > >

杨晓颖

作品数:1 被引量:31H指数:1
供职机构:中山大学信息科学与技术学院计算机科学系更多>>
发文基金:广东省科技计划工业攻关项目国家自然科学基金广东省自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇主题挖掘
  • 1篇MB

机构

  • 1篇中山大学

作者

  • 1篇印鉴
  • 1篇黄云
  • 1篇欧阳佳
  • 1篇刘少鹏
  • 1篇杨晓颖

传媒

  • 1篇计算机学报

年份

  • 1篇2015
1 条 记 录,以下是 1-1
排序方式:
基于MB-HDP模型的微博主题挖掘被引量:31
2015年
主题模型是挖掘微博潜在主题的重要工具.然而,现有的主题模型多由Latent Dirichlet Allocation(LDA)派生,它需要用户预先指定主题数目.为了自动挖掘微博主题,作者提出了一个基于分层Dirichlet过程(Hierarchical Dirichlet Process,HDP)的非参数贝叶斯模型MB-HDP.首先,针对微博应用场景,假设消息是不可交换的;接着,利用微博的时间信息、用户兴趣以及话题标签,聚合主题相关的消息以解决微博短文本的数据稀疏问题;然后,扩展Chinese Restaurant Franchise(CRF)对微博数据进行主题建模;最后,设计一个相应的Markov Chain Monte Carlo(MCMC)采样方法,推导MB-HDP模型的分布参数.实验表明,在生成主题质量、内容困惑度和模型复杂度等指标上,MB-HDP模型明显优于LDA和HDP两种模型.
刘少鹏印鉴欧阳佳黄云杨晓颖
关键词:主题挖掘
共1页<1>
聚类工具0