张永刚
- 作品数:4 被引量:13H指数:3
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金江苏省现代企业信息化应用支撑软件工程技术研发中心开放基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于统计的多文档关键短语和文摘抽取研究
- 关键短语和文摘抽取是智能信息处理的重要技术,主要应用于搜索引擎、话题检测与跟踪、文本聚类和文本分类等文档信息处理。
多文档关键短语和文摘用短语和句子的形式反映多文档主题内容。关键短语主要由多词单元短语的形式出现,文...
- 张永刚
- 关键词:信息抽取多文档文摘自然语言处理
- 文献传递
- 基于加权复杂网络的中文文档关键短语抽取被引量:6
- 2009年
- 提出了基于加权复杂网络的中文文档关键短语抽取方法.在识别完整短语后,将单个文档构建成一个语义复杂网络,同时加以共现信息对网络予以权重.之后进行网络分离,计算主体网络节点的加权点度中心度,同时提出基于边界节点的介数,解决了介数计算量大的问题.最后结合加权点度中心度和基于边界节点的介数抽取出关键短语,表现出良好的抽取效果,对利用复杂网络抽取关键短语有很好的指导作用.
- 林煜熙梁颖红韩艳张永刚姚建民
- 关键词:介数
- 基于统计的中文关键短语自动抽取被引量:5
- 2010年
- 用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点为N元短语在过滤、按比例选择方面提供了依据。获得了比较好的实验结果:TOP5精确率21.80%,召回率28.27%,F-measure 25%;TOP10精确率17.10%,召回率44.50%,F-measure 30.80%。
- 张永刚梁颖红颜振祥姚建民
- 关键词:文本特征互信息
- 基于决策树的关键短语抽取被引量:4
- 2010年
- 针对关键短语抽取工作可以转化为某种分类问题,利用决策树构造分类器解决关键短语的抽取。统计分析表明,将文档中词的词频因子、首位置和词性作为决策树分类特征,并考虑词在文档中出现的位置信息,对词的特征值进行一定的调整,采用Bagging重采样技术进一步提高了决策树的抽取性能,使其完全匹配和部分匹配的F_检测率分别达到21.50%和54.49%。
- 刘玲玲梁颖红张永刚韩艳姚建民
- 关键词:抽取决策树