郑阳
- 作品数:3 被引量:41H指数:1
- 供职机构:桂林电子科技大学信息与通信学院更多>>
- 发文基金:广西科技计划项目广西壮族自治区自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于专业术语提取的中文分词方法被引量:1
- 2012年
- 针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。
- 郑阳莫建文
- 关键词:互信息未登录词中文分词
- 面向科技文献的中文分词系统研究与实现
- 中文分词是将中文文本中的词语按照一定的规则进行切分的过程。由于中文语句中字与字之间没有任何明显的切分标记,计算机无法对词语进行自动识别,因此必须利用相关的方法对语句进行处理。 中文分词是自然语言处理中最基本也是最重要的...
- 郑阳
- 关键词:中文分词术语抽取
- 文献传递
- 改进的基于词典的中文分词方法被引量:40
- 2013年
- 为了能够快速、准确地进行中文分词,在传统分词词典构造及相应算法的基础上,提出了改进的基于词典中文分词方法。该方法结合双字哈希结构,并利用改进的正向最大匹配分词算法进行中文分词,既提高了分词速度,同时解决了传统最大匹配分词算法中的歧义问题。实验结果表明,该方法在一定程度上提高了中文词语切分的准确率,同时大大缩短了分词时间。
- 莫建文郑阳首照宇张顺岚
- 关键词:中文分词词典歧义