山西省自然科学基金(2011011016-2)
- 作品数:7 被引量:33H指数:4
- 相关作者:谭红叶钱揖丽王风娥李君婵冯志茹更多>>
- 相关机构:山西大学苏州市职业大学金陵科技学院更多>>
- 发文基金:山西省自然科学基金国家自然科学基金山西高校科技研究开发项目更多>>
- 相关领域:自动化与计算机技术自然科学总论更多>>
- 时间关系识别研究进展被引量:6
- 2011年
- 时间关系识别是自然语言中语义处理的一个重要任务,近年来得到了广泛的关注和快速的发展。该文参考大量的文献资料,总结了当前时间关系识别在标准、资源和评测中的进展,分析了研究中采用的多种方法和技术,探讨了研究中存在的问题和未来研究的重点。
- 谭红叶郑家恒梁吉业
- 关键词:自然语言处理
- 基于语块和条件随机场(CRFs)的韵律短语识别被引量:6
- 2014年
- 该文提出一种基于汉语语块这一浅层句法信息,并利用条件随机场模型的中文文本韵律短语边界预测方法。首先介绍语块的定义和标注算法,然后在进行了语块结构标注以及归并处理的语料上,利用CRFs算法生成相应模型对韵律短语进行识别。实验结果表明,基于语块信息的CRFs韵律短语识别模型的识别效果优于不利用语块结构的模型,其F值平均能够提高约十个百分点。
- 钱揖丽冯志茹
- 关键词:韵律短语条件随机场
- 中文时间表达式及类型识别被引量:9
- 2012年
- 目前,时间信息识别在信息抽取、问答系统、摘要生成、话题跟踪和检测等领域中有着广泛应用,同时也是自然语言处理的重要研究任务之一。针对TempEval-2会议评测任务中的时间表达式识别和类型识别任务:1)句内时间表达式识别,2)时间表达式类型识别,分别提出了基于词性构建时间单元规则库的识别方法以及基于最大熵的类型识别方法。实验对象为中文,结果显示时间表达式识别的准确率为85.16%,时间表达式类型识别的准确率为93.02%。
- 李君婵谭红叶王风娥
- 关键词:最大熵自然语言处理
- 采用无标注语料和词“粘连”剔除策略的韵律短语识别
- 2016年
- 针对人工标注韵律结构获取大规模语料的困难和问题,利用标点符号能够表示停顿的性质,提出一种采用无标注语料和词"粘连"剔除策略的韵律短语识别方法。对标点符号划分等级,并在利用其模拟韵律边界时对其赋予不同的权重。基于无标注语料构建最大熵模型,并采取Top-K方法实现句子韵律短语边界的自动预测。通过计算相邻语法词词性间的互信息对句子进行"粘连"处理,生成"粘连"单元,并对出现在其内部的韵律边界进行剔除,实现韵律短语的自动识别。实验结果表明,获取无标注语料时对标点进行分级利用及采用"粘连"剔除策略能够明显提升模型性能,该方法能够获得较好的识别效果。
- 钱揖丽蔡滢滢
- 关键词:互信息
- 基于最大熵的句内时间关系识别被引量:12
- 2012年
- 分别对句内事件-时间对关系以及事件对之间的时间关系识别进行研究。分析影响时间关系识别的语言特征,如时间关系对之间的依存关系序列、间隔词数、信号词及其位置等,并使用基于最大熵的方法进行识别。实验结果表明,运用该方法获得的事件-时间对关系识别准确率为87.83%,事件对之间的时间关系识别准确率为80.79%。
- 王风娥谭红叶钱揖丽
- 关键词:最大熵依存分析自然语言处理
- 基于改进DE-Tri-Training算法的汉语多词表达抽取被引量:2
- 2017年
- 多词表达的识别错误会对很多自然语言处理任务造成不利影响。DE-Tri-Training半指导聚类算法在聚类初期使用有指导的标注信息,取得了较好的抽取结果。本文采用基于中心词扩展的初始聚类中心确定方法和基于有指导信息的一致性协同学习数据净化方法,提出了半指导策略抽取汉语多词表达,聚类算法的中后期也加入有指导的信息,使分类器能使用正确的标注信息进行训练。通过与DETri-Training算法的对比实验,改进的DE-Tri-Training算法得到的汉语多词表达抽取结果优于原来的算法,验证了改进DE-Tri-Training算法的有效性。
- 梁颖红谭红叶鲜学丰黄丹丹钱海忠沈春泽