苏州大学计算机科学与技术学院自然语言处理实验室
- 作品数:23 被引量:153H指数:7
- 相关作者:胡亚楠鞠久朋戴敏王荣洋更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于树核函数的中英文代词消解被引量:23
- 2012年
- 基于树核函数,提出了从使用中心理论、集成竞争者信息和融入语义角色相关信息这3个方面对结构化句法树进行动态扩展来提升中英文代词消解的性能.首先探索了3种基本结构化句法树捕获方案,并使用SVMLight中提供的卷积树核函数直接进行基于结构化句法树的相似度计算,从而完成指代消解任务;其次,在分析3种结构化句法树捕获方案的基础上,从中心理论、竞争者信息和语义角色相关信息等几方面对捕获的结构化句法树进行了扩展;最后,通过ACE 2004 NWIRE英文语料和ACE 2005 NWIRE中文语料上的实验,说明了这些扩展能够提升代词消解的性能.
- 孔芳周国栋
- 关键词:代词消解树核函数
- 基于CRFs的评价对象抽取特征研究被引量:39
- 2012年
- 评价对象是情感分析中情感信息的一个重要组成部分。该文基于条件随机场模型,研究多种特征在评价对象抽取任务中的表现,并将特征归纳为词法、依存关系、相对位置、语义四大类别。其中,重点引入语义角色标注新特征。在实验中,我们在三个不同的数据集上考查了各个特征及其组合对系统性能的影响,作了详细地比较研究。另外,实验结果表明新提出的语义角色标注特征对评价对象抽取有很好地指示作用。
- 王荣洋鞠久朋李寿山周国栋
- 关键词:情感分析评价对象抽取语义角色标注
- 基于维基百科的中文嵌套命名实体识别语料库自动构建被引量:7
- 2018年
- 传统的监督学习方法需要标注一定规模的领域内语料库,限制了其领域适应性。为此,提出一种从中文维基百科条目中自动构建中文嵌套命名实体识别语料库的方法。对中文维基百科的条目进行实体分类,利用实体条目构造实体的嵌套结构,从而自动生成大规模的中文嵌套命名实体识别语料库。在手工标注嵌套命名实体识别语料库上的实验结果表明,自动构建的语料库具有规模较大、领域广的特点,且能够适应宽泛领域上的中文嵌套命名实体识别任务。
- 李雁群何云琪钱龙华周国栋
- 关键词:信息抽取维基百科语料库条件随机场
- 中文篇章零元素语料库构建被引量:2
- 2019年
- 针对中文零指代问题,从篇章视角进行理论分析,并完成中文篇章零元素语料库(ChineseDiscourse ZeroCorpus,CDZC)的构建工作。首先,整理和分析已有的理论研究以及语料资源,探究篇章层面中文零元素语料库标注的必要性。然后,采用自底向上、前向搜索的标注策略和人机结合的半自动标注方式,完成CDZC语料库的构建。最后,对该语料库进行一系列详细的统计分析。结果表明,CDZC能够充分反映出中文零元素省略的语言特点,为相关研究提供语料资源支持。
- 盛晨孔芳周国栋
- 关键词:语料库构建
- 基于提高伪平行句对质量的无监督领域适应机器翻译被引量:1
- 2022年
- 神经机器翻译系统的良好性能依赖于大规模内领域双语平行数据,当特定领域数据稀疏或不存在时,领域适应是个很好的解决办法。无监督领域适应方法通过构建伪平行语料来微调预训练的翻译模型,然而现有的方法没有充分考虑语言的语义、情感等特性,导致目标领域的翻译包含大量的错误和噪声,从而影响到模型的跨领域性能。为缓解这一问题,从模型和数据2个方面来提高伪平行句对的质量,以提高模型的领域自适应能力。首先,提出更加合理的预训练策略来学习外领域数据更为通用的文本表示,增强模型的泛化能力,同时提高内领域的译文准确性;然后,融合句子的情感信息进行后验筛选,进一步改善伪语料的质量。实验表明,该方法在中-英与英-中实验上比强基线系统反向翻译的BLEU值分别提高了1.25和1.38,可以有效地提高翻译效果。
- 肖妮妮金畅段湘煜
- 关键词:神经网络情感信息
- 多语言输入的神经语义分析方法研究被引量:5
- 2019年
- 多语言到语义表达式的语义分析,即将多个语义上等价的不同语言句子同时作为输入并解析为相应的语义表达式。在神经网络编码-解码的框架下,针对多语言输入,将不同语言输入相结合以建立双编码-解码模型。基于该模型,将2种不同自然语言作为源端,语义表达式作为目标端,实现多语言到语义表达式的语义分析。在多语言句子的语义分析数据集上的评测结果表明,多语言到语义表达式的语义分析方法取得的准确率高于单语言到语义表达式的语义分析方法。
- 柴强李军辉孔芳周国栋
- 关键词:多语言语义分析解码神经网络
- 面向中文文本的情感信息抽取语料库构建被引量:8
- 2015年
- 情感信息抽取是情感分析中的一个重要子任务。虽然该任务已经开展有一段时间,但是面向中文文本的情感信息抽取任务研究才刚刚起步。目前中文文本的情感信息抽取面临的首要困难在于现有的相关中文语料库还非常有限。为了更好开展中文文本的情感信息抽取研究,该文重点研究了中文语料标注体系,构建一个规模较大、标注类型丰富的中文情感信息抽取语料库。除了常见语料库标注的情感倾向性、评价对象、情感词等信息外,重点标注了评价对象的省略、无情感词情感句表达及极性转移等情况。由语料信息统计可知,该文所指出的特殊现象(例如,评价对象的省略)在中文情感表达中是非常普遍的,开展这方面的研究很有必要。该文所构建的中文文本语料库将为中文情感信息抽取任务提供语料基础。
- 戴敏朱珠李寿山周国栋
- 关键词:情感分析
- 融合依存关系和篇章修辞关系的事件时序关系识别被引量:1
- 2019年
- 已有事件间时序关系识别只考虑两个事件所在上下文的局部信息,忽略事件间篇章视角的关联关系.针对这一问题,文中给出融合句子级依存关系和篇章层修辞关系的事件时序关系识别方法.将事件间关联关系分两部分进行表征:事件所在句子的依存路径信息和事件所在基本篇章单元间的修辞关系信息.基于这一表征体系构建可以捕获更多有效信息的神经网络模型,提高事件时序关系识别的性能.在TimeBank-Dense语料上的一系列实验验证文中方法的优越性.
- 戴倩雯张龙印孔芳
- 中文微博用户性别分类方法研究被引量:20
- 2014年
- 该文旨在研究中文微博用户的性别分类问题,即根据微博提供的中文文本信息对注册用户的性别进行识别。虽然基于微博的性别分类已经有一定研究,但是针对中文的性别分类工作还很缺乏。该文首先提出分别利用用户名和微博文本构建两个分类器对用户的性别类型进行判别,并对不同的特征(例如,字特征、词特征等)进行了研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,从而达到采用这两种文本分类信息同时对用户性别进行性别判断。实验结果表明该文的方法可以达到较高的识别准确率,并且分类器融合的方法明显优于仅利用用户名或者微博文本的分类方法。
- 王晶晶李寿山黄磊
- 关键词:性别分类文本分类社交网络
- 交互式问答中基于话语结构的指代消解研究
- 2015年
- 交互式问答系统能够与用户进行对话式交互进而处理用户提出的一系列问题,但指代现象阻碍了系统准确地理解用户的问题。深入研究了交互式问答中的指代消解任务,在交互式问答文本语料中标注指代链信息和话语结构信息,并在基准平台的基础上提出了基于话语结构的特征集。实验研究了新闻文本上提出的基准特征集在交互式问答文本中的性能,并在此基础上引入话语结构特征。实验结果表明,与基准系统相比,改进系统的F值提高了2.6%,指代消解平台的性能有较大的提升。
- 张超孔芳周国栋
- 关键词:话语结构指代消解