宗成庆
- 作品数:219 被引量:488H指数:14
- 供职机构:中国科学院自动化研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术语言文字文化科学电子电信更多>>
- 一种基于标点处理的层次化汉语长句句法分析方法及装置
- 本发明涉及自然语言处理领域,特别是一种新的面向汉语长句的层次化句法分析方法及装置。该方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句...
- 宗成庆李幸
- 文献传递
- 基于多层过滤的统计机器翻译
- 本文提出了一种基于多层过滤的算法。该算法主要实现从对齐的中英文句子中自动的抽取与对齐双语语块。根据不同语块具备的不同特性,采用不同的层次对其处理。该算法不同于传统的算法,它不需要对句子进行标注,句法分析,词法分析甚至不需...
- 周玉宗成庆徐波
- 关键词:统计机器翻译
- 文献传递
- 基于“松弛尺度”的短语翻译对抽取方法被引量:6
- 2007年
- 短语对抽取是基于短语统计机器翻译方法的关键技术。当前广泛使用的Och提出的短语对抽取方法,过于依赖词对齐结果,因而只能抽取与词对齐完全相容的短语对。本文给出一种基于"松弛尺度"的短语抽取方法,对不能完全相容的短语对,结合词性标注信息和词典信息来判断是否进行抽取,放松"完全相容"的限制,可以保证为更多的源短语找到目标短语。实验表明,该抽取方法的性能比Och的方法有明显的改善和提高。
- 何彦青周玉宗成庆王霞
- 关键词:人工智能机器翻译统计机器翻译
- 文本翻译方法、装置、电子设备及存储介质
- 本发明提供一种文本翻译方法、装置、电子设备及存储介质,应用于机器翻译技术领域,该方法包括:获取待翻译文本的第一文本序列,所述第一文本序列包括至少两个相邻语句和每两个相邻语句之间的句间关系分隔符;确定所述第一文本序列中每个...
- 亢晓勉向露张亚萍周玉宗成庆
- 基于跨模态实体信息融合的神经机器翻译方法被引量:3
- 2023年
- 现有多模态机器翻译(Multi-modal machine translation,MMT)方法将图片与待翻译文本进行句子级别的语义融合.这些方法存在视觉信息作用不明确和模型对视觉信息不敏感等问题,并进一步造成了视觉信息与文本信息无法在翻译模型中充分融合语义的问题.针对这些问题,提出了一种跨模态实体重构(Cross-modal entity reconstruction,CER)方法.区别于将完整的图片输入到翻译模型中,该方法显式对齐文本与图像中的实体,通过文本上下文与一种模态的实体的组合来重构另一种模态的实体,最终达到实体级的跨模态语义融合的目的,通过多任务学习方法将CER模型与翻译模型结合,达到提升翻译质量的目的.该方法在多模态翻译数据集的两个语言对上取得了最佳的翻译准确率.进一步的分析实验表明,该方法能够有效提升模型在翻译过程中对源端文本实体的忠实度.
- 黄鑫张家俊宗成庆
- 关键词:多任务学习
- 影响统计翻译系统性能的因素分析
- 统计翻译方法已经成为目前国际上机器翻译研究的主流方法,但对于一个统计翻译系统来说,哪些因素是影响系统性能的关键因素,它们对系统性能的影响有多大,并没有相关的文献对此做详细的调研和分析。本文以基于短语的 (phrase-b...
- 柴春光宗成庆
- 关键词:统计机器翻译系统性能
- 文献传递
- 一种双语篇章标注方法
- 本发明公开了一种双语篇章标注方法,该方法包括:步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;步骤2,根据所述步骤1得到的词对齐信息和两端的篇...
- 张家俊刘洋宗成庆
- 文献传递
- 第23届国际计算语言学大会将于2010年在北京召开
- 2009年
- 国际计算语言学大会( International Conference on Computational Linguistics, COLING)是国际计算语言学委员会 (International Committee on Computational Lin- guistics, ICCL, http ://nip. shef. ac. uk/iccl/) 每两年召开一次的学术盛会,是该领域最具影响的学术会议之一,堪称国际计算语言学界的“奥林匹克大会”。自上个世纪60年代计算语言学创始人DavidGlennHays博士创立ICCL,
- 宗成庆
- 关键词:计算语言学HTTP
- 融合篇章结构位置编码的神经机器翻译被引量:5
- 2020年
- 现有的文档级神经机器翻译方法在翻译一个句子时大多只利用文档的上下文词汇信息,而忽视了跨句子的篇章语义单元之间的结构关系。针对此问题,提出了多种篇章结构位置编码策略,利用基于修辞结构理论的篇章树结构,对篇章树上位于不同篇章单元的单词之间的位置关系进行了表示。实验表明,通过位置编码的方式,在基于Transformer框架的神经机器翻译模型中有效地融合了源端的篇章结构信息,译文质量得到了显著提升。
- 亢晓勉宗成庆
- 关键词:篇章结构篇章分析修辞结构理论
- 极大熵球面K均值文本聚类分析被引量:1
- 2007年
- 提出了一种基于极大熵理论的球面K均值文本聚类算法ME-SPKM。该算法利用了传统文本聚类算法SPKmeans中使用的余弦相似度度量,进而引入极大熵理论构造了适合文本聚类的极大熵目标函数。对文本数据的实验证明了极大熵球面K均值文本聚类算法取得了比传统文本聚类算法更好的聚类效果。
- 修宇王士同朱林宗成庆
- 关键词:极大熵球面文本聚类相似度度量聚类效果