姚天顺
- 作品数:128 被引量:1,210H指数:21
- 供职机构:东北大学自然语言处理实验室更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字电子电信文化科学更多>>
- 基于文本句法的文本生成模型
- 1995年
- 本文引用语言学及符号学理论,综合自然语言文本生成所涉及的知识,构造了计算机文本生成的理论模型;探讨文本句法中的微观整合性和宏观整合性以及它们对文本生成的作用。这个以文本结构模型和文本意义模型为主体的文本生成理论框架,为进一步的计算机语言生成研究提供了方法依据。
- 张晓龙姚天顺
- 关键词:语义分析自然语言理解符号学计算机
- 一个从中间语言生成目标语言的原理和方法被引量:7
- 1994年
- 本文介绍了我们的汉英机器翻译系统(CETRAN)中一种从中间语言生成英语的生成系统,讨论了从中间语言留到目标语言转换的基本原理.目的在于通过解决汉英之间语法和语义方面的差异,得到高质量的机译结果.文中还介绍了基于语义驱动的由中间语生成英文目标语的计算机实现算法.为了说明清楚,整个叙述都注意列举了一些实例.
- 卞世力姚天顺金鸿
- 关键词:机器翻译中间语言目标语言
- 基于Stacking算法的组合分类器及其应用于中文组块分析被引量:26
- 2005年
- 与基于Voting方法的组合分类器相比,提出基于Stacking算法的多分类器组合方法,通过构造一个两层的叠加式框架结构,将4种分类器(fnTBL,SNoW,SVM,MBL)进行了组合,并融合各种可能的上下文信息作为各层分类器的输入特征向量,在中文组块识别中取得了较好的效果.实验结果表明,组合后的分类器无论在准确率还是召回率上都有所提高,在哈尔滨工业大学树库语料的测试下达到了F=93.64的结果.
- 李珩朱靖波姚天顺
- 关键词:叠加式多分类器
- 文本结构分析与基于示例的文本过滤被引量:39
- 2000年
- 本文简要介绍了文本过滤的背景和发展 ,提出了基于示例的中文文本过滤模型 .其基本思想是首先对于用户提出的示例文本进行文本结构分析 ,采用本文提出的文本层次分析方法 ,提取文本特征 ,形成主题词表示的用户模版 (user profile) ,然后进行文本过滤 ,同时引进段落匹配机制 ,提高过滤效率 .通过用户反馈 。
- 林鸿飞战学刚姚天顺
- 关键词:文本过滤文本结构分析信息过滤
- 基于结合性自动识别中文姓名被引量:14
- 1997年
- 汉字分词系统中,姓名的识别一直是一个比较难处理的部分。本文以姓名和其前后语料的结合性为突破口,在分词预处理中将姓名加以标识。对新华社语料测试的结果令人满意,而且系统还具有独特的开放性和自我学习功能。
- 张跃姚天顺
- 关键词:分词中文姓名识别自动识别中文信息处理
- 面向数据的句法分析技术被引量:14
- 1998年
- 面向数据的分析技术(Data-OrientedParsing,DOP)首先由Scha(1990)年提出。该处理技术具体表达了这样的假设:人类对语言的领悟和创造依赖于以往具体的语言经验,而不是依赖于抽象的语法规则。DOP技术框架可以分为:(1)建立包括以往成功分析的语言经验的标注语料库;(2)从语料库中抽取片段单元来构造新语言的分析过程;(3)计算分析过程的概率。DOP模型建立在包含大量语言现象的语料库基础上,把经过标注的语料库看作一个语法(Grammar)。当输入一个新的语言现象时,系统通过对语料库中片段单元的组合运算来组合分析过程。根据所有片段单元的共现频率来评估最有可能性的分析结果。本文详细论述了语料库的标注,片段单元的定义。
- 朱靖波姚天顺
- 关键词:面向数据句法分析自然语言
- 中等词汇的汉英语音翻译系统被引量:3
- 1998年
- 本文给出了汉英语音翻译系统的组成,介绍了系统中连续汉语语音识别和汉英机器翻译的工作;我们已经在限定主题、中等词汇量的条件下实现了非特定人的连续语音识别,实现了汉英语音翻译实验演示系统。
- 李晶皎姚天顺
- 关键词:语音识别机器翻译
- 基于特征相关性的汉语文本自动分类模型的研究被引量:35
- 1998年
- 本文提出一种基于预定义类别与文本特征之间相关性的自动分类算法,并在文中详细阐述了汉语文本自动分类模型的设计与实现过程。为测试分类模型实现性能,建立具有12类别的分类体系,并构造包含近500篇汉语新闻语料的测试集。实验结果表明,评价自动分类算法的两个重要指标:查全率和查准率,都比较令人满意。
- 张月杰姚天顺
- 关键词:信息检索汉语文本关键词
- 英汉机译中一种基于无监督学习的词类消歧策略被引量:1
- 2000年
- 在本文 ,我们介绍英汉机译中使用无监督学习实现词类消歧的一种新方法 .该方法以独立于语料库的手工制作的约束规则为出发点 ,然后合并从训练语料库中以无监督方式所学习的约束规则 ,从而激发手工制作的约束规则 ,同时不以牺牲查全率为代价而提高查准率 .实验表明 ,在英语分析过程中 ,通过组合这些手工制作以及所学习的信息源 ,可获得大约 98%的查全率 ,89%的查准率 ,以及平均 1.10个歧义分析 /单词 .
- 张跃谭咏梅姚天顺
- 关键词:无监督学习机器翻译英汉翻译
- 基于相似性评估的近似实例求解策略被引量:2
- 1999年
- 提出在基于实例的英汉机译中,一种基于相似性评估的近似实例求解策略·首先,对知识源进行预处理,包括树库、片段库及片段组合库的构建;其次,对输入句子进行预处理,包括句法分析树的建立,合法片段的抽取及片段组合形式的转换;最后,测量片段至句子的相似性,依据相似性阀值获取输入句子的所有近似实例·实验结果表明。
- 张玥杰朱靖波张跃姚天顺
- 关键词:翻译系统