张秦龙
- 作品数:4 被引量:13H指数:1
- 供职机构:北京大学信息科学技术学院计算语言学研究所更多>>
- 发文基金:国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于多特征的中文多词术语提取技术研究
- 随着互联网技术的不断发展,大量电子文档的出现,知识的载体由过去的纸质文档转变成电子文档,术语在知识传播中的作用越来越重要。单纯依靠人工来整理和规范术语的工作越发繁重,利用计算机来进行术语自动提取的技术就应运而生。随着研究...
- 张秦龙
- 关键词:信息抽取自然语言处理
- 面向机器辅助翻译的汉语语块自动抽取研究被引量:13
- 2007年
- 本文提出了一种统计和规则相结合的语块抽取方法。本文使用Nagao串频统计算法进行基于词语的串频统计,进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤,得到候选语块,取得了令人满意的结果。通过实验发现,在统计方法中互信息和信息熵相结合的方法较单一的互信息方法好;在语块边界规则过滤方法中语块左右边界规则和停用词对语块抽取的结果有较大影响。实验结果表明统计和过滤规则相结合的方法要优于纯粹的统计方法。应用本文方法,再辅以人工校对,可以方便地获取重复出现的多词语块。在机器辅助翻译系统中,使用现有的语块抽取方法抽取重复的语言单位,就可以方便地建设翻译记忆库,提高翻译的工作效率。
- 姜柄圭张秦龙谌贻荣常宝宝
- 关键词:人工智能机器翻译串频统计信息熵
- 术语自动提取中的领域度计算方法研究
- 术语自动提取是自然语言处理的主要内容之一,主要包括:单元度的计算和领域度的计算两方面。其中,领域度计算是术语自动提取区别于一般的新词发现等的关键步骤之一。本文详细阐述了术语自动提取中领域度的计算方法。通过综合利用领域部件...
- 张秦龙穗志方丁万松
- 关键词:SVM
- 文献传递
- 术语自动提取中的领域度计算方法研究
- 术语自动提取是自然语言处理的主要内容之一,主要包括:单元度的计算和领域度的计算两方面.其中,领域度计算是术语自动提取区别于一般的新词发现等的关键步骤之一.本文详细阐述了术语自动提取中领域度的计算方法.通过综合利用领域部件...
- 张秦龙穗志方丁万松
- 关键词:自然语言处理
- 文献传递