杜攀 作品数:19 被引量:75 H指数:5 供职机构: 国家计算机网络与信息安全管理中心 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 国家科技支撑计划 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
tsk-shell:一种话题敏感的高影响力传播者发现算法 被引量:2 2017年 在社交网络中,挖掘高影响力的信息传播者,对微博服务中内容的流行度分析和预测是非常有价值的任务.与众多相关方法相比,k-shell分解(k-core)方法因其简洁高效、平均性能好的特点吸引了越来越多的研究人员的兴趣.但是,目前k-shell方法着重考虑节点在网络中的位置因素,而忽略了话题在信息传播中的影响.因此,为了利用用户历史数据中蕴含的话题对消息的传播概率进行细粒度的建模,提出了一种话题敏感的k-shell(topic-sensitive k-shell,tsk-shell)分解算法.在真实Twitter数据集上实验表明,在发现top k高影响力传播者任务中,tsk-shell比k-shell的性能平均提高了约40%,证明了tsk-shell算法的有效性. 笱程成 杜攀 贺敏 刘悦 程学旗关键词:社交网络 信息扩散 一种面向权威度和多样性的自动学术调研框架 被引量:3 2015年 对某个领域或问题进行学术调研是科研工作的基本需求,然而随着越来越多的科研人员投身研究,大量的学术成果不断涌现,信息过载使得快速有效的调研工作变得越发困难.文中旨在提出一种自动学术调研框架,基于用户给定的关键词查询推荐最值得调研的论文及作者,以辅助科研人员高效完成调研任务.面向某个领域或问题最值得调研的论文和作者,需要具备显著的权威度且能覆盖该领域或问题的不同方面.因此,文中提出了一种面向权威度和多样性的两阶段排序模型:首先引入了MutualRank模型,同时考虑论文及作者信息以更好地建模他们的权威度;接着利用PDRank模型融合权威度和差异性两个因素对论文和作者排序,最终得到权威度高、覆盖面广的调研结果.通过实验作者证明了MutualRank对于权威度的学习效果优于传统的PageRank,同时基于两阶段排序模型得到的调研结果也优于已有的基准方法. 韩晓 郭嘉丰 杜攀 程学旗关键词:社会计算 社交网络 一种用于微博的突发特征检测方法及装置 本发明公开一种用于微博的突发特征检测方法及装置,涉及网络信息挖掘技术领域,用以解决现有技术中微博信息噪音大、数据多样突发特征检测准确率低的问题。所述方法包括:根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特... 贺敏 云晓春 周勇林 王丽宏 程学旗 包秀国 马宏远 丁丽 杜攀 刘悦 赵立永 杨建武文献传递 面向舆情事件的子话题标签生成模型ET-TAG 被引量:19 2018年 关于舆情事件的新闻数据是纷繁复杂的.即便是关于同一舆情事件的新闻数据,往往包含有不同的子话题(事件的不同侧面).因此,如何生成能够准确描述事件子话题含义的标签对深入分析舆情事件(包括掌握事件热点、监测发展走向等)具有重要意义.事件子话题标签的生成通常包括两个关键步骤:首先发现子话题,然后依据每个子话题的关键词或文档内容生成描述该子话题的有效标签.传统方法在发现话题时多采用聚类或分类的方法,它们将同一个话题的文档整合到一个簇中.然而,由于隶属同一事件的文档具有很强的相似性,现有方法难以度量他们之间的距离,因此无法应用于发现事件子话题这一任务.此外,在为子话题生成标签时,传统的方法通常通过抽取来实现.此类方法所生成标签的准确性无法保证.为此,该文提出了一种基于PLSA with Background Language并结合关键词聚类发现事件内部子话题,进而基于维基百科等知识库生成事件子话题标签的模型ET-TAG.在多类舆情事件数据集上的实验结果表明,ET-TAG算法相比K-means和LDA等已有子话题发现方法具有更好的性能;从子话题标签生成角度而言,ET-TAG生成的标签相对于传统方法也具有更好的准确性和概括性.该文最后将ET-TAG算法生成的子话题标签用于事件的对比和追踪,结果表明通过子话题标签可以发现事件共性,并反映事件子话题热度的变化趋势. 周楠 杜攀 杜攀 靳小龙 刘悦关键词:PLSA BACKGROUND LANGUAGE 一种用于微博的突发特征检测方法及装置 本发明公开一种用于微博的突发特征检测方法及装置,涉及网络信息挖掘技术领域,用以解决现有技术中微博信息噪音大、数据多样突发特征检测准确率低的问题。所述方法包括:根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特... 贺敏 云晓春 周勇林 王丽宏 程学旗 包秀国 马宏远 丁丽 杜攀 刘悦 赵立永 杨建武文献传递 基于热传导模型的更新摘要算法 被引量:1 2012年 更新摘要除了要解决传统的面向话题的多文档摘要的两个要求——话题相关性和信息多样性,还要求应对用户对信息新颖性的需求.文中为更新摘要提出一种基于热传导模型的抽取式摘要算法——HeatSum.该方法能够自然利用句子与话题,新句子和旧句子,以及已选句子和待选句子之间的关系,并且为更新摘要找出话题相关、信息多样且内容新颖的句子.实验结果表明,HeatSum与参加TAC09评测的表现最好的抽取式方法性能相当,且更优于其它基准方法. 杜攀 郭嘉丰 张瑾 程学旗 张旭基于有意义串聚类的微博热点话题发现方法 被引量:12 2013年 针对微博数据特征稀疏、内容碎片化的特点,提出一种基于有意义串聚类的热点话题发现方法。结合重复串计算、上下文邻接分析和语言规则过滤多种策略,提取能够表达独立完整语义的有意义串,并将微博数据建模在相对较小的有意义串空间,通过聚类产生候选话题,根据热度排序发现热点话题。微博数据实验结果表明,该方法在一定程度上实现对微博高维稀疏空间的降维,对于微博空间的热点话题发现有效可行。 贺敏 王丽宏 杜攀 张瑾 程学旗关键词:特征聚类 基于流形排序的查询推荐方法 被引量:11 2011年 针对传统查询推荐方法中存在的相关性度量问题和冗余性问题,该文中提出了一种新的基于流形排序的查询推荐方法。该方法利用查询数据内在的全局流形结构来获得查询之间的相关性,可以有效避免传统方法中相关性度量对高维稀疏查询数据处理的不足;同时,该方法通过提升结构上具有代表性的查询来达到减小查询推荐的冗余性。在一个大规模商业搜索引擎查询日志上的实验结果表明:使用流形排序的查询推荐方法要优于传统查询推荐方法和现有的Hitting-time Ranking方法。 朱小飞 郭嘉丰 程学旗 杜攀关键词:查询推荐 流形排序 DATA K-Canopy:一种面向话题发现的快速数据切分算法 被引量:2 2016年 针对海量数据上的话题发现任务,提出了一种均匀快速的数据预切分算法。在保证一定精度情况下,通过该算法可以按照数据的语义关联强度快速有效地将数据集切分成大小均匀的子数据集,以支持后续的话题发现算法的并行执行。实验表明,所提出的方法能够快速切分海量数据,保持块内数据的语义关联,大大提升话题发现的效率与质量。 陈强 杜攀 陈海强 包秀国 刘悦 程学旗关键词:海量数据 一种微博话题特征提取方法及装置 本发明提供一种微博话题特征提取方法及装置,用以解决目前采用静态词典中的词语特征来表示微博文本,会遗漏大量的关键特征,不能准确反映实时微博信息的问题。该方法包括:提取微博中的有意义字符串,有意义字符串为包含具有语义、能够独... 贺敏 周勇林 王丽宏 云晓春 程学旗 包秀国 马宏远 丁丽 杜攀 刘悦 张丹 刘克松文献传递