肖璐
- 作品数:20 被引量:208H指数:9
- 供职机构:南京大学信息管理学院更多>>
- 发文基金:国家自然科学基金国家社会科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:文化科学自动化与计算机技术经济管理政治法律更多>>
- 基于情感分析的评论挖掘模型研究被引量:13
- 2013年
- 在社会化网络环境下,关于产品的评论成为企业竞争情报分析重要的数据源。这些评论中包含用户对产品各个方面的情感倾向,对其进行情感分析可以帮助商家了解产品的优缺点。针对现有情感分析的不足,本文在构建评论挖掘模型时综合采用了共词分析和基于句法分析的极性传递法。共词分析可定量确定用户关心的产品维度;极性传递算法考虑句子结构特点,在对句子级文本做情感分析时相较传统情感分类算法有更好的分析效果。同时,引入极性值和强度值计算情感词和主题词的情感强度。
- 唐晓波肖璐
- 关键词:情感分析共词分析
- 基于词汇同现的多用户兴趣本体构建研究被引量:3
- 2012年
- 用户兴趣本体弥补了基于关键词的用户兴趣模型不能从语义上表达用户兴趣的缺陷,但大多是利用领域本体来构建,很难反映用户多方面和潜在兴趣,并且构建领域本体也是一个难点。本文据此提出一种基于词汇同现的用户兴趣本体构建方法。根据网页浏览记录找到用户兴趣网页集,经过数据处理将其转换成用户兴趣文本集。以TFIDF为指标抽取概念,词汇同现统计提取概念间关系,运用无尺度K-中心点聚类算法对其调整,将有关联用户的本体合并得到多用户本体,该本体能在语义上更全面反映用户兴趣并发现潜在兴趣。
- 唐晓波肖璐
- 关键词:用户兴趣本体构建词汇同现
- “互联网+”环境下情报工作的思考被引量:2
- 2016年
- "互联网+"环境下传统行业与互联网技术深度融合,给情报工作带来新的挑战。文章在对"互联网+"的概念内涵与特征进行分析的基础上,综合当前情报工作的特点,分析总结新环境下情报工作面临的挑战与机遇。
- 孙建军肖璐
- 关键词:情报工作
- 基于依存句法分析的微博主题挖掘模型研究被引量:14
- 2015年
- 近年来,微博成为人们获取与发布信息的重要方式,每天有大量微博数据产生,对其进行热点主题挖掘意义重大。数据挖掘中的聚类分析是挖掘热点主题的重要方法,但由于篇幅限制,传统聚类效果有限。本文据此提出用依存句法分析来改进传统文本相似矩阵,以提高聚类准确性。首先采用传统文本处理方法构建文本相似矩阵;再利用依存句法分析句子的结构,获取微博信息的依存树,找到有效依存词对,并据此计算文本相似度,构建另一个相似矩阵。综合两个矩阵得到更准确的微博文本相似矩阵,在此基础上运行聚类算法,挖掘出热点主题。最后根据评论数和转发数挖掘出重要主题与重要微博,完成微博主题的深入分析。
- 唐晓波肖璐
- 关键词:热点主题依存句法分析
- 向量空间模型文本建模的语义增量化改进研究被引量:6
- 2014年
- 【目的】基于语义增量对向量空间模型文本分类方法进行改进,并进行实验验证。【方法】梳理目前文本表示中语义向量引入和改进的相关研究,提出文本的语义向量表示实现框架。根据主题词和词汇分别与领域本体中概念之间的映射关系,构建概念层次树和定位词汇,计算概念语义相似度,结合语义增量实现文本的语义向量构建。【结果】通过文本分类的对比实验发现,本文所提方法可行且有效,在宏平均准确率、宏平均召回率和宏平均F_1方面优于其他方法。【局限】在向量空间模型基础上的改进,语义信息的表达不够充分,应继续探索文本建模的真正语义化实现方法;应对多种类型数据进行实验验证,以提高方法的适用性。【结论】探索原始向量空间模型的语义化问题,对当前文本分类及其语义关联等研究具有现实意义。
- 胡吉明肖璐
- 关键词:语义相似度
- 基于句子成分的微博热点主题挖掘模型研究被引量:3
- 2015年
- 由于传统聚类分析中文本相似度计算方法不适用于短文本,本文选用基于句子成分的相似度计算方法来计算微博文本之间的相似度。首先对文本进行句子划分,再通过句法分析获取微博的句子成分,选择构成句子成分的词语为特征词。利用知网计算两个微博文本之间相同成分词语的语义相似度,将语义相似度值按句子成分种类加权相加得到微博文本之间的相似度值。据此,构建文本相似矩阵,进行聚类分析,找到微博热点主题。最后,用实验证明本文方法的可行性。
- 肖璐唐晓波
- 关键词:句法分析知网热点主题句子成分
- 领域知识分析中的关键词选择方法研究——一种以学科为背景的全局视角被引量:21
- 2014年
- 以文献关键词为对象的领域知识分析研究中,依据词频阈值等热度指标筛选的关键词集合会忽视领域特色知识点,因而难以有效揭示领域的研究特征。本文将科研领域放置于其背景学科内,从全局视角考察关键词对领域研究特点的表征能力。通过对比关键词在领域内外的出现概率,提出领域度计算公式,并融合领域度和热度指标进行关键词筛选。以“数字图书馆”为例,构造了图情学科背景语料库和数字图书馆领域语料库,用综合方法、词频方法提取等量关键词。通过定性的对比分析表明综合方法所得关键词集能深入地揭示领域的研究特点;为了克服计量分析结果的主观性问题,本文设计了一种盲选实验,用定量结果论证了新方法的有效性。
- 陈果肖璐赵雪芹
- 关键词:关键词分析数字图书馆
- 基于单句粒度的微博主题挖掘研究被引量:7
- 2014年
- 针对现有主题挖掘方法的不足,本文提出一种以句子为粒度的微博主题挖掘方法。首先,以标点符号为依据进行微博文本的句子划分,选择名词和动词为特征词来表征句子;其次,以高频特征词在微博文本集中的共现频次为基础构建词语相似矩阵,辅助计算句子相似度,构建句子相似矩阵;然后,以句子相似矩阵为基础进行聚类分析,通过分析聚类结果实现主题发现;最后,利用改进的LexRank算法计算各主题句子的重要度值,组合重要度值高的句子生成主题摘要,以完成对主题的描述。文章通过实验证明了该方法的可行性。
- 唐晓波肖璐
- 关键词:主题挖掘
- 基于依存句法网络的文本特征提取研究被引量:10
- 2014年
- 【目的】利用依存句法分析构建更准确的文本网络,提高基于网络图的文本特征提取方法的准确率。【方法】根据依存句法分析的结果确定特征词之间的语义关联,利用特征词依存方向确定其关联方向,采用改进的Page Rank算法计算节点重要性,并以此为指标进行特征提取。【结果】实验结果表明,相较共词网络,基于依存句法网络的特征提取方法能在一定程度上提高文本聚类的效果。【局限】利用依存关系确定特征词关联方向时没有对不同的依存类型进行区分。【结论】提出的基于依存句法网络的文本特征提取方法是有效的。
- 唐晓波肖璐
- 关键词:特征提取依存句法分析复杂网络
- 面向网络社区的知识聚合:发展、研究基础与展望被引量:10
- 2017年
- [目的/意义]梳理网络社区知识聚合的发展历程、研究对象和方法,可为后续研究的开展提供基础,并促进知识聚合理论与方法的深入和普适性发展。[方法/过程]以从信息聚合到知识聚合、从馆藏资源知识聚合到网络社区知识聚合两条主线探索网络社区知识聚合的发展历程;从多粒度知识单元、多元知识关联两个维度探索其研究对象;按语义利用程度归纳其基本方法;结合资源特点展望后续研究开展方向。[结果/结论]面向网络社区的知识聚合需要充分利用语义增强技术和领域概念关联,以克服其语义缺失的天然缺陷;同时,以"基于用户"和"面向用户"为主线,重视用户元素的作用;最后,应在综合考虑多元素、多关联的整体视角下开展网络社区知识聚合。
- 陈果朱茜凌肖璐
- 关键词:网络社区知识组织