吴夙慧 作品数:8 被引量:205 H指数:4 供职机构: 南京大学信息管理学院 更多>> 发文基金: 教育部人文社会科学研究基金 国家社会科学基金 国家科技支撑计划 更多>> 相关领域: 文化科学 自动化与计算机技术 经济管理 更多>>
文本聚类中文本表示和相似度计算研究综述 被引量:23 2012年 围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。 吴夙慧 成颖 郑彦宁 潘云涛关键词:文本聚类 文本表示 相似度计算 基于混合策略的中文生物医学领域未登录词识别研究 被引量:2 2013年 简述中文未登录词识别研究现状,结合中文生物医学领域词长分布和构词特点,提出以N-gram为基础,综合利用领域词典、语料和规则的中文生物医学领域未登录词识别方案,并以中国生物医学文献数据库中药学期刊数据作为样本集进行实验,效果表现良好。 孙海霞 李军莲 吴英杰 吴夙慧关键词:未登录词 N-GRAM 生物医学 链接分析研究进展 被引量:5 2013年 本文在近五年链接分析研究文献的基础上,对国内外链接分析的进展进行了评述,研究热点包括:基于网页内容的链接分析,基于用户行为的链接分析,基于Web网页群的链接分析、Web链接分析和复杂网络四个方面。文章最后探讨了链接分析研究的趋势。 吴夙慧 孙建军 郑彦宁 潘云涛关键词:链接分析 复杂网络 一种基于引用上下文和引文网络的相关反馈算法 被引量:3 2012年 相关反馈是一种根据用户或系统的相关性判断重构初始检索提问的方法,已被证明可以有效地改进检索效果。具体到学术文献,其引用关系表征了文献内容上的相关性,因而可以为相关反馈提供有价值的辅助信息。本文提出了一种基于引用上下文、文献同被引和文献耦合的相关反馈改进算法。该算法的基本思想包括:利用学术文献的引用上下文信息扩充词包模型(bags of words)进行文本表示;在相关文献判断阶段利用相关文献在引文网络中与其他文献的同被引强度和耦合强度扩充相关文献集合;结合基于聚类的相关反馈思想抽取查询扩展项。实验证明该算法提高了相关反馈效果。此外,相关分析的结果表明文献同被引以及文献耦合强度与文献内容相似度具有显著的相关性。 吴夙慧 成颖 郑彦宁 潘云涛关键词:聚类 K-means算法研究综述 被引量:166 2011年 对聚类分析中的基本算法K-means算法中的K值确定、初始聚类中心选择以及分类属性数据处理等主要问题进行综述,理清K-means算法的整个发展脉络及算法研究中的热点和难点,提出改进K-means聚类算法的思路。 吴夙慧 成颖 郑彦宁 潘云涛关键词:聚类算法 初始聚类中心 基于N元语法的英文学术文献聚类标签抽取算法 被引量:4 2011年 提出一种基于N元语法的英文学术文献聚类标签抽取算法,该算法利用N元语法在大规模语料库上进行先期学习生成领域短语词表,再通过K-means算法进行聚类,从聚簇中抽取N元语法项计算TFIDF值,对出现在词表中的特征项赋以更高的权值,以得分最高的特征项作为聚类标签。实验结果表明,该算法能获得更好的实验效果。同时,在抽取聚类标签时提出一种改进的TFIDF权重计算,在评价标签质量时提出一种新的标签评价方法R@N方法。 吴夙慧 成颖 郑彦宁 潘云涛关键词:N元语法 基于引用分析的学术检索系统改进研究 当前,包括学术数据库在内的众多学术检索系统已经成为广大科研工作者必备的研究工具。而目前包括Elsevier, Web of Science, CNKI在内的众多知名学术数据库在其检索模块都主要是采用基于文献内容的解决方案... 吴夙慧关键词:N元语法 检索结果聚类 K-MEANS算法 文献传递 基于学术文献同被引分析的K-means算法改进研究 被引量:4 2012年 K—means算法是一种应用广泛的聚类算法,但是存在初始聚类中心和K值选取的难题。本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K—means改进算法。该算法属于两步聚类算法,首先对学术文献进行同被引分析,得到同被引矩阵,然后基于同被引矩阵进行层次聚类。算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差,当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值,并且将此时的类中心作为第二步K—means算法的初始聚类中心。第二步聚类则依据文献内容实现K-means算法。实验通过与经典K—means算法和基于凝聚层次聚类算法的改进K—means算法的对比,证明了本文提出的改进的K—means算法具备更优的聚类效果。 吴夙慧 成颖 郑彦宁 潘云涛关键词:初始聚类中心