国家高技术研究发展计划(2004AA114010)
- 作品数:2 被引量:20H指数:1
- 相关作者:刘群李双龙王成耀李金国刘宏更多>>
- 相关机构:中国科学院北京科技大学更多>>
- 发文基金:国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术天文地球更多>>
- 中文缩略语自动抽取初探
- 汉语中许多新生的词语都是短语的缩略形式。对缩略语的检测是未登录词识别的一部分,但用来作为训练语料的缩略语词典资源却很稀缺。本文提出一种在生语料中自动抽取中文缩略语的方法,首先获取候选缩略语集和源短语库,然后利用语言模型和...
- 崔世起刘群林守勋孟遥于浩西野文人
- 关键词:缩略语
- 文献传递
- 机动车视频标注规范研究与标注平台的实现
- 2007年
- 针对智能交通系统(ITS)涉及到的机动车视频处理技术,提出了一种新颖的城市机动车视频标注规范,并开发了一个城市机动车视频标注平台。该平台可辅助用户对机动车视频进行手工标注。在视频处理算法的测试和训练中,利用标注好的机动车视频样本,能够为算法的训练、测试、改进、优化等提供极大的帮助。
- 李金国钱跃良王向东刘群刘宏
- 利用单字碎片过滤改进汉语分词性能
- 对于一般的分词系统,由于数据稀疏而识别失败的未登录词往往被切分成单字串。这里将切分结果中连续的单字串称之为“单字碎片”。本文提出的一种碎片过滤方法的基本思想就是重新检测出单字碎片中识别失败的未登录词,并将此方法作为“后处...
- 李双龙刘乐中刘群
- 关键词:汉语分词未登录词
- 文献传递
- 基于条件随机场的汉语分词系统被引量:20
- 2006年
- 汉语分词是自然语言处理的首要的基本工作。本文提出了一个基于条件随机场(简称CRF)的汉语分词模型,CRF模型作为一个判别模型,可以容纳任意的非独立的特征信息。我们首先将分词看作是一个标记的过程,然后利用CRF模型对每个汉字进行标记,最后转换为相应的分词结果。系统采用感知机(Perceptron)算法进行参数训练。跟以前利用CRF进行分词的模型相比,本系统定义并使用了不同的特征函数,取得了更好的切分结果。在1st SIGHAN分词比赛PK测试集上封闭测试,F值为95.2%。
- 李双龙刘群王成耀
- 关键词:汉语分词条件随机场感知机