国家高技术研究发展计划(2011AA01A207)
- 作品数:26 被引量:413H指数:9
- 相关作者:刘挺刘群吕雅娟车万翔张梅山更多>>
- 相关机构:哈尔滨工业大学中国科学院浙江大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- 藏文数词识别与翻译被引量:7
- 2013年
- 通过对藏文数词内部构词规律及外部边界信息进行分析,提出对藏文数词基本构件定义的方案。采取最优路径决策模型判断数词构件边界,然后通过有限自动机模型识别并翻译基本数词,最后用模板匹配算法处理复杂数词。结果表明,提出的方法对数词识别与翻译的F值达到98.73%,在藏汉机器翻译的测试集上的BLEU提高了2.64%。
- 孙萌华却才让刘凯吕雅娟刘群
- 关键词:藏文自动机
- 词语对齐的快速增量式训练方法研究
- 2013年
- 围绕翻译模型构建流程的瓶颈——词语对齐,着手翻译模型的增量式训练。在基于无监督学习的词语对齐模型的基础上,提出一种基于初始化同时应用迭代训练收敛速度更快的online EM算法,以替换通常所用的batch EM算法,实现增量式训练。实验表明,所提出的方法既高效又能保证词语对齐质量和机器翻译质量。
- 罗维
- 关键词:统计机器翻译词语对齐期望最大化
- 基于多粒度的英汉人名音译被引量:4
- 2013年
- 音译是解决人名翻译的重要方法。在英汉人名音译问题中,翻译粒度问题一直是研究的重点之一。该文提出一种基于多粒度的英汉人名音译方法。将多种粒度的英文切分通过词图进行融合,并使用层次短语模型进行解码,从而缓解了由于切分错误而导致的音译错误,提高了系统的鲁棒性。实验结果表明基于多粒度的音译方法融合了基于各种粒度音译方法的优点,在准确率上提高了3.1%,在BLEU取得了2.2个点的显著提升。
- 于恒凃兆鹏刘群刘洋
- 关键词:多粒度词图
- 基于序列标注的中文分词、词性标注模型比较分析被引量:13
- 2013年
- 该文对三种不同的分词词性标注模型进行了比较。这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Learning框架进行集成的融合模型。通过在《人民日报》、CoNLL09、CTB5.0和CTB7.0四个数据集上进行比较分析,最终实验结果表明分类联合模型能取得比较好的速度,融合模型能取得比较好的准确率,而普通串行模型处于速度和准确率的平衡位置。最后该文将准确率最好的融合模型和相关前沿工作在CTB5.0和CTB7.0上进行了对比,该融合模型均取得了最好的结果。
- 刘一佳车万翔刘挺张梅山
- 关键词:中文分词词性标注LEARNING
- 绿色数据中心的热量管理方法研究被引量:19
- 2015年
- 数据中心的高能耗是一个亟待解决的问题.尤其是随着云计算的发展,更多的资源集中到云端.构建绿色数据中心、实现节能减排成为了近年来业界关注的热点.数据中心的能耗主要由计算能耗和制冷能耗两部分组成.数据中心的热量管理主要从减少制冷能耗的角度出发,为实现绿色计算提供了新的思路.该文从绿色数据中心的状态监控、热量建模、热量管理策略以及热量管理评价4个方面综述了近年来数据中心热量管理方面的研究工作.该文提出了绿色数据中心热量管理的总体架构,总结了其分布式监控系统的一般框架;对现有的热量管理方法按面向单节点/面向多节点进行分类,并且从复杂度、灵活度、实施效果等多方面进行了比较,分析了各种方法的优势和局限性.文中提出了数据中心全局能耗评价、制冷系统效率评价、热量及温度评价的分类方法,对现有的评价方法进行总结.最后论文列出了未来需要进一步研究的十个方向.
- 李翔姜晓红吴朝晖叶可江
- 关键词:绿色数据中心能耗管理制冷云计算
- 文本情感分类中生成式情感模型的发展被引量:3
- 2014年
- 描述了生成式模型的概念及它在文本情感分类领域的发展,分析了生成式情感模型的分类,着重研究了不同生成式情感模型之间的关联性,并对生成式模型中最有代表性的三类模型进行了介绍,最后对生成式情感模型发展以及未来趋势进行了总结。
- 张辉刘奕群马少平
- 关键词:文本情感分类主题模型
- 联合语义角色标注和指代消解被引量:6
- 2013年
- 语义角色标注和指代消解是自然语言处理中两个重要的基础研究任务,该文提出使用马尔科夫逻辑网络对两个任务进行联合学习推导。通过提出8条联合学习规则,在OntoNote5.0的实验中证明采用联合学习推导后,两者的标注性能都比单独标注任务有了1.6个F值的性能提升。
- 熊皓刘群吕雅娟
- 关键词:语义角色标注指代消解
- 统计与词典相结合的领域自适应中文分词被引量:45
- 2012年
- 基于统计的中文分词方法由于训练语料领域的限制,导致其领域自适应性能力较差。相比分词训练语料,领域词典的获取要容易许多,而且能为分词提供丰富的领域信息。该文通过将词典信息以特征的方式融入到统计分词模型(该文使用CRF统计模型)中来实现领域自适应性。实验表明,这种方法显著提高了统计中文分词的领域自适应能力。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。
- 张梅山邓知龙车万翔刘挺
- 关键词:中文分词CRF领域自适应
- 基于主动学习的中文依存句法分析被引量:10
- 2012年
- 目前依存句法分析仍主要采用有指导的机器学习方法,即需要大规模高质量的树库作为训练语料,而现阶段中文依存树库资源相对较少,树库标注又是一件费时费力的工作。面对大量未标注语料,该文将主动学习应用到中文依存句法分析,优先选择句法模型预测不准的实例交由人工标注。该文提出并比较了多种衡量依存句法模型预测可信度的准则。实验表明,一方面,与随机选择标注实例相比,当使用相同数目训练实例时,主动学习使中文依存分析性能最高提升0.8%;另一方面,主动学习使依存分析达到相同准确率时只需标注更少量实例,人工标注量最多可减少30%。
- 车万翔张梅山刘挺
- 大规模双语句对自动获取技术
- 2012年
- 从互联网上挖掘大量双语平行句对,可以快速有效地构建大规模双语资源,服务于统计机器翻译。从挖掘对象的不同,将网络数据源分成对照网页和平行网页两类,提出一种抽取双语句对的方法。首先,从上述两类网页中分别抽取平行文本段,对照网页文本段抽取的主要方法为页面过滤和模板匹配,而平行网页依赖于网页结构的相似,采用对应节点匹配方法;其次,采用Gale-Church算法进行句对齐,得到平行句对;最后统一进行后处理。实验结果表明,从对照网页获取平行句对的准确率达到93.3%,平行网页为93.5%。
- 王澍郑德权赵铁军