北京市自然科学基金(4123091)
- 作品数:9 被引量:158H指数:5
- 相关作者:杜永萍何明黄亮姚长青王振振更多>>
- 相关机构:北京工业大学中国科学技术信息研究所更多>>
- 发文基金:北京市自然科学基金国家科技支撑计划北京市属高等学校人才强教计划资助项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于主题的舆情跟踪方法研究及性能评价被引量:4
- 2012年
- 舆情跟踪是对媒体信息流中的热点话题进行实时追踪,是近年来自然语言处理领域的研究热点。实现该任务的核心技术是进行文本分类,运用信息增益以及互信息计算特征项权重,提取向量空间模型中文档表示的有效特征;分别采用Rocchio、K-Nearest Neighbor(KNN)、Bayes方法对于给定主题的事件实现舆情跟踪。在测试集上的最优性能F-Measure值达到86.2%。舆情跟踪在信息安全等领域具有广阔的应用前景,为用户及时判断网络热点事件的发展趋势提供有效指导依据。
- 姚长青杜永萍
- 关键词:文本分类自然语言处理
- 基于信任关系的潜在好友推荐方法被引量:7
- 2013年
- 如何有效地帮助用户挖掘平台潜在好友成为电子商务中一项非常重要的服务需求。提出了一种综合考虑用户间兴趣因素和信任因素的好友推荐方法,设计并构建了一个包括用户声望信任和局部信任的混合信任网络,将网络中信任评价度与协同过滤中兴趣评分相似度进行组合来衡量用户间好友相似关联,以实现好友推荐。在Epinions数据集上以准确率、召回率和F值作为实验评价指标,对所提方法进行验证,相比其他同类应用准确率在10%-15%、召回率在10%~20%的性能,本文方法的准确率和召回率的最佳性能分别达到22.47%和21.15%,实验证明本文方法有效提高了推荐性能。
- 黄亮杜永萍
- 关键词:信任计算
- 基于依存分析与特征组合的微博情感分析被引量:8
- 2014年
- 针对微博短文本存在口语化、简洁化等社交网络特征,充分利用句法依存关系以及条件随机场(conditional random fields,CRFs),抽取候选评价对象,并在基于机器学习的微博情感分类方法的基础上结合情感分析词典,引入情感值、微博标签、主题等特征,优化分类性能。在COAE(Chinese opinion analysis evaluation)微博评测数据集上,以准确率、召回率、F1值为评价指标对所提方法进行验证,证实了基于句法依存分析与CRFs相结合的评价对象抽取方法的有效性,分析了各类特征对情感分类性能的影响,最终在COAE微博观点句识别任务中准确率达91.4%。
- 夏梦南杜永萍左本欣
- 关键词:情感分析
- 基于主题效能的学术文献推荐算法被引量:5
- 2015年
- 针对文献推荐问题,提出了一种基于主题效能的学术文献推荐算法,该算法使用潜在狄利克雷分布(latent Dirichlet allocation,LDA)对候选文献和用户发表的文献进行建模,挖掘出具有高效能的主题集合,并根据候选文献中高效能主题的分布情况来计算它与用户兴趣之间的相似度,最后向用户推荐有价值的文献.实验结果表明:提出的算法比基于频繁项挖掘的算法具有更高的推荐准确率和推荐召回率,可同时满足用户对个性化和文献质量两方面的需求.
- 杜永萍杜晓燕姚长青
- 关键词:推荐系统主题模型
- 语义蕴涵关系识别中的特征提取方法
- 2013年
- 为了捕捉不同文本片段之间的语义推理结果,实现文本片段之间的推导,采用基于分类器的方法进行蕴涵关系的判断.特征的选取是影响分类器性能的关键因素,在采用基本的词汇特征的基础上,引入了句法特征以及语义特征.通过构建语义链的方法挖掘T和H之间的语义关联,并应用于不同的分类器检验语义特征的有效性.在公开评测的数据集RTE-3~RTE-5上评价系统的性能,AdaBoost与SVM分类器取得的准确率分别为61.0%和61.8%.t检验的结果表明:基于语义链的语义特征使得系统性能得到了显著的提高.
- 杜永萍张江涛刘江利
- 关键词:语义链自然语言处理
- 基于LDA主题模型的文本相似度计算被引量:95
- 2013年
- LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。
- 王振振何明杜永萍
- 关键词:主题模型LDA文本相似度GIBBS抽样
- LDA模型在微博用户推荐中的应用被引量:29
- 2014年
- 潜在狄利克雷分配(LDA)主题模型可用于识别大规模文档集中潜藏的主题信息,但是对于微博短文本的应用效果并不理想。为此,提出一种基于LDA的微博用户模型,将微博基于用户进行划分,合并每个用户发布的微博以代表用户,标准的文档-主题-词的三层LDA模型变为用户-主题-词的用户模型,利用该模型进行用户推荐。在真实微博数据集上的实验结果表明,与传统的向量空间模型方法相比,采用该方法进行用户推荐具有更好的效果,在选择合适的主题数情况下,其准确率提高近10%。
- 邸亮杜永萍
- 关键词:主题模型用户模型
- 融合信任计算的协同过滤推荐方法被引量:12
- 2014年
- 协同过滤推荐是目前应用最为广泛的推荐策略之一,但存在数据稀疏和难扩展问题.文中在传统基于用户的协同过滤推荐算法的基础上,引入信任关系计算,利用信任关系的条件传递特性,设计并构建一个集用户声望信任和用户局部信任的混和信任网络,并将用户间评分相似度和网络中用户间信任评价度结合,为用户寻找更多基于信任因素和兴趣因素的二维相似近邻.在Epinions数据集上以平均绝对误差(MAE)和均方根误差(RSME)等作为实验评价指标,对该方法进行验证实验.结果表明相比传统协同过滤推荐算法,该方法在MAE上提高约6.8%,最优值达到0.7513,t检验的结果也表明该方法能显著提高推荐系统性能.
- 杜永萍黄亮何明
- 关键词:协同过滤信任计算推荐系统