国家自然科学基金(60573187)
- 作品数:1 被引量:4H指数:1
- 相关作者:孙茂松乔维更多>>
- 相关机构:清华大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 汉语交集型歧义切分字段关于专业领域的统计特性被引量:4
- 2008年
- 交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。
- 乔维孙茂松
- 关键词:计算机应用中文信息处理汉语自动分词
- 基于WEB的计算机领域新术语的自动检测
- 本文主要介绍“基于 WEB 的计算机领域新术语的自动检测”算法的设计和实现。随着计算机技术的迅猛发展,英语中每天都会出现大量的该领域的新术语,如何将这些新兴术语及时发现并纳入到汉语中来,是一个迫切而非常有意义的工作。该算...
- 刘知远孙茂松
- 关键词:自然语言处理新术语RSS
- 文献传递
- 中文歌词的统计特征及其检索应用
- 我们在歌词上做了一些传统的自然语言处理相关的实验。大部分的歌曲都具有与其相匹配的歌词,歌词也是歌曲语义上的重要表达。因此,对歌词的分析可以作为歌曲音频处理的互补。我们利用齐夫定律对歌词语料库的字和词进行统计特征的考察,实...
- 郑亚斌刘知远孙茂松
- 关键词:歌词齐夫定律K-近邻节奏
- 文献传递
- 基于生语料、最大匹配切分语料以及熟语料的中文词频估计方法
- 词频估计在NLP的各个领域中都有着重要的应用,中文的特点使得中文词频估计对我们来说依然是一个严峻的挑战。其中一个主要因素就是缺少一个供我们作词频估计的“完美的”语料库。我们现有的语料库有:规模可以任意大的生语料库;由生语...
- 乔维孙茂松
- 关键词:词频
- 文献传递
- 中文博客标签的若干统计性质
- 随着 Wleb2.0理念日益深入人心,博客作为一种网络日志的形式,成为网络上的主要应用之一。而主要出现在博客、网络相册等系统上的,依靠大量用户使用自由选择的词汇作为标签(Tag)来对事物进行标记的人工分类的“大众分类法”...
- 刘知远司宪策郑亚斌孙茂松
- 关键词:标签齐夫定律复杂网络