奚宁
- 作品数:12 被引量:7H指数:2
- 供职机构:南京大学更多>>
- 发文基金:国家自然科学基金国家社会科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 统计机器翻译中的中文分词策略研究
- 步入信息时代,人们对语言间翻译的需求与日俱增。传统的基于人工的翻译已经远远不能满足人们的需求,而机器翻译,特别是统计机器翻译,因其良好的自动学习能力和较好的翻译效果逐渐受到人们青睐。 “词”是语言中能独立运用的最小语言...
- 奚宁
- 关键词:机器翻译语言模型
- 统计机器翻译中多种语言模型的融合
- 在统计机器翻译系统中,目标语言的语言模型一般以词为基本单位。然而面对汉语、日语等存在不同分词标准、词语颗粒度不易确定、存在切分不一致和容易产生分词错误的语言来说,语言模型的单位难以取舍。本文研究了两种语言模型:基于词和基...
- 奚宁赵迎功汤光超李斌罗春勇戴新宇陈家骏
- 关键词:统计机器翻译自动分词语言模型
- 一种适用于机器翻译的汉语分词方法被引量:2
- 2012年
- 汉语分词是搭建汉语到其他语言的统计机器翻译系统的一项重要工作。从单语语料中训练得到的传统分词模型并不一定完全适合机器翻译[1]。该文提出了一种基于单语和双语知识的适应于统计机器翻译系统的分词方法。首先利用对齐可信度的概念从双语字对齐语料中抽取可信对齐集合,然后根据可信对齐集合对双语语料中的中文部分重新分词;接着将重新分词的结果和单语分词工具的分词结果相融合,得到新的分词结果,并将其作为训练语料,利用条件随机场模型训练出一个融合了单双语知识的分词工具。该文用该工具对机器翻译所需的训练集、开发集和测试集进行分词,并在基于短语的统计机器翻译系统上进行实验。实验结果表明,该文所提的方法提高了系统性能。
- 奚宁李博渊黄书剑陈家骏
- 关键词:中文分词统计机器翻译
- 基于双语平行语料的中文缩略语提取方法被引量:2
- 2012年
- 汉语缩略语在现代汉语中被广泛使用,其研究对于中文信息处理有着重要地意义。该文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。首先对双语语料进行词对齐,再抽取出与词对齐信息一致的双语短语对,然后用SVM分类器提取出质量高的双语短语对,最后再从质量高的短语对集合中利用相同英文及少量汉语缩略—全称对应规则提取出汉语缩略语及全称语对。实验结果表明,利用平行语料的双语对译信息,自动提取出的缩略语具有较高地准确率,可以作为一种自动获取缩略语词典的有效方法。
- 刘友强李斌奚宁奚宁
- 关键词:缩略语平行语料库短语抽取
- 统计机器翻译中多种语言模型的融合
- 在统计机器翻译系统中,目标语言的语言模型一般以词为基本单位。然而面对汉语、日语等存在不同分词标准、词语颗粒度不易确定、存在切分不一致和容易产生分词错误的语言来说,语言模型的单位难以取舍。本文研究了两种语言模型:基于词和基...
- 奚宁赵迎功汤光超李斌罗春勇戴新宇陈家骏
- 关键词:自动分词语言模型统计机器翻译
- 文献传递
- 一种计算机中译英翻译中基于分词网的词对齐融合方法
- 本发明提出了一种计算机中译英翻译中基于分词网的汉英词对齐融合方法,包括以下步骤:步骤一,确定骨架对齐:用基于连接置信度的连接选择算法搜索选择最优的骨架连接,形成骨架对齐;步骤二,将选出骨架对齐投影到各个分词上,得到基于各...
- 奚宁李博渊汤光超赵迎功陈家骏戴新宇张建兵
- 文献传递
- 一种错误敏感的词对齐评价方法被引量:3
- 2009年
- 对齐错误率(Alignment Error Rate,AER)是目前通用的词对齐评价标准。近年来的研究表明,AER虽然在一定程度上能够反映词对齐的质量,但它与机器翻译最终结果BLEU得分的相关性并不好。该文针对基于短语的机器翻译系统(PBSMT)分析了AER可能存在的一些问题,并根据词对齐结果中存在的不同类型的错误,提出了一种错误敏感的词对齐评测方法ESAER(Error-Sensitive Alignment Error Rate)。实验表明,该文提出的ES-AER与BLEU的相关性要远远好于AER。
- 黄书剑奚宁赵迎功戴新宇陈家骏
- 关键词:人工智能机器翻译统计机器翻译词对齐AER
- 南京大学第七届机器翻译研讨会评测技术报告
- 本文介绍南京大学自然语言处理研究组(NJU-NLP)参加2011年第七届全国机器翻译研讨会(CWMT2011)评测的情况。本研究组参加了全部九个评测项目中的四个子项,分别是:汉英新闻领域单一系统,英汉新闻领域单一系统,英...
- 奚宁赵迎功汤光超李中华刘友强戴新宇陈家骏
- 关键词:人工智能自然语言处理机器翻译数据处理
- 南京大学第七届机器翻译研讨会评测技术报告
- 本文介绍南京大学自然语言处理研究组(NJU-NLP)参加2011年第七届全国机器翻译研讨会(CWMT2011)评测的情况。本研究组参加了全部九个评测项目中的四个子项,分别是:汉英新闻领域单一系统。英汉新闻领域单一系统,英...
- 奚宁赵迎功汤光超李中华刘友强戴新宇陈家骏
- 关键词:人工智能自然语言处理机器翻译
- 文献传递
- 一种错误敏感的词对齐评价方法
- 对齐错误率(Alignment Error Rate,AER)是目前通用的词对齐评价标准。近年来的研究表明,AER虽然在一定程度上能够反映词对齐的质量,但它与机器翻译最终结果BLEU得分的相关性并不好。本文针对基于短语的...
- 黄书剑奚宁赵迎功戴新宇陈家骏
- 关键词:统计机器翻译词对齐AER
- 文献传递