王锴
- 作品数:2 被引量:15H指数:1
- 供职机构:北京信息科技大学中文信息处理研究中心更多>>
- 发文基金:北京市教委科技发展计划北京市自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于MapReduce的术语权重计算方法研究被引量:1
- 2011年
- 术语识别在本体构建、词典构建等领域应用广泛,而术语权重计算是术语识别中的关键步骤。本文通过改进TF-IDF公式,将组成术语词条的长度作为权重因素之一,同时考虑术语在文档集中的领域相关性。整个过程基于MapReduce编程模型实现,在Hadoop云平台中以分布式方式计算候选领域术语的权重。实验结果表明,该方法不仅简化了术语权重计算的实施步骤,也提高了算法执行效率。
- 王锴施水才王涛吕学强
- 关键词:TF-IDFMAPREDUCE分布式
- 基于条件随机场的领域术语识别研究被引量:14
- 2013年
- 领域术语是各个领域的核心词汇,在研究了大量领域文献的基础上,提出了一种识别领域术语的方法。该方法以现有成熟工具为依托,使用条件随机场模型统计领域术语的词性组合概率。在选定特征集后,通过调整特征和窗口的组合,制定一个最优特征模板,同时通过10倍交叉验证法确定模型训练参数。实验结果表明,通过条件随机场模型分析领域术语的词性组合概率能够有效地识别领域术语。
- 施水才王锴韩艳铧吕学强
- 关键词:条件随机场