朱志强
- 作品数:2 被引量:6H指数:1
- 供职机构:西北师范大学计算机科学与工程学院更多>>
- 发文基金:甘肃省中青年科技研究基金国家自然科学基金甘肃省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 改进的频繁词集短文本特征扩展方法被引量:6
- 2016年
- 针对短文本结构短小、语义不足、难以建模的特点,提出一种利用改进频繁词集进行短文本特征扩展的方法。通过计算单词集的支持度和置信度,挖掘出具有共现关系和类别同向关系的频繁二元词集,并在挖掘出的频繁词集基础上定义关联关系对所选词集进一步扩充。同时,在TF-IDF的基础上引入词语信息增益表示词语在文本集合中的类别分布信息,以加强词语权重。由频繁词集通过改进后的词语权重构造出词语相似性矩阵,利用非负矩阵分解技术将其扩展至短文本特征空间,从而得到短文本模型。实验结果表明,该方法构造的短文本模型能显著提升短文本的聚类性能。
- 马慧芳曾宪桃李晓红朱志强
- 关键词:词语权重信息增益非负矩阵
- 基于核心词项平均划分相似度的短文本聚类算法
- 2017年
- 针对短文本特征极度稀疏、上下文依赖性强等特点,以自顶向下的策略,提出一种基于核心词项平均划分相似度的短文本聚类算法CTMPS。该方法首先在整个短文本语料库中计算词项之间的概率相关性,以此为基础对短文本中词项进行加权,将权值较大的词项作为最能代表该短文本的核心词项形成核心词项集;以信息论为基础,将核心词项作为划分依据计算平均划分相似度,选择平均划分相似度值最大包含该核心词项的短文本形成一类,用此策略反复迭代直到满足要求。最后,实验结果表明,本文提出的方法显著地提高了短文本聚类的性能。
- 马慧芳朱志强成玉丹贾俊杰