巢佳媛
- 作品数:8 被引量:2H指数:1
- 供职机构:苏州大学更多>>
- 发文基金:国家自然科学基金江苏省博士后科研资助计划项目江苏省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种数据标注方法及装置
- 本发明提供一种数据标注方法及装置,通过已有的标注数据训练第一句法分析器,其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系;基于所述第一句法分析器自动分析当前待分析句子中未标注的词,从未标注的词中选取出...
- 李正华张民陈文亮巢佳媛
- 文献传递
- 一种基于异构标注数据的快速序列标注方法及装置
- 本发明公开了一种基于异构标注数据的快速序列标注方法及装置。该方法包括以下步骤:获取两个归属于不同标注数据库的初始标记集;根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;针对包含耦合标记集的训练数据,训练基于条...
- 李正华巢佳媛张民
- 面向词性标注的多资源转化研究
- 2015年
- 利用多资源转化方法进行词性标注研究,旨在将源端资源的标注进行转化,以符合目标端标注规范,进而将转化后的资源与目标资源合并,增大训练数据规模。做了两方面创新:在转化过程中,额外利用指导特征的置信度信息;在转化后的资源中,用模糊标注表示方法减少错误标注。实验表明,利用置信度信息能有效帮助转化,而模糊标注表示方法的影响不大。
- 高恩婷巢佳媛李正华
- 关键词:条件随机场词性标注
- 翻译规则剪枝与基于半强制解码和变分贝叶斯推理的模型训练
- 2014年
- 统计机器翻译一般采用启发式方法训练翻译模型。但启发式方法的理论基础不够完善,因此,会导致翻译模型规模庞大以及模型参数精确率不高。针对以上两个问题,该文提出一种基于变分贝叶斯推理的模型训练方法,形成更精确的精简翻译模型。该方法首先通过强制解码对齐语料,然后利用变分贝叶斯EM算法获得模型参数。该文的实验语料为NIST汉英翻译任务数据,实验结果显示,基于句法(基于短语)的统计机器翻译中,超过95%(76%)的规则被剪枝,且BLEU值显著提高。
- 高恩婷段湘煜巢佳媛张民
- 关键词:机器翻译规则剪枝
- 面向词性标注的多资源转化研究
- 利用多资源转化方法进行词性标注研究,旨在将源端资源的标注进行转化,以符合目标端标注规范,进而将转化后的资源与目标资源合并,增大训练数据规模.做了两方面创新:在转化过程中,额外利用指导特征的置信度信息;在转化后的资源中,用...
- 高恩婷巢佳媛李正华
- 关键词:汉语词性标注
- 文献传递
- 一种基于异构标注数据的快速序列标注方法及装置
- 本发明公开了一种基于异构标注数据的快速序列标注方法及装置。该方法包括以下步骤:获取两个归属于不同标注数据库的初始标记集;根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;针对包含耦合标记集的训练数据,训练基于条...
- 李正华巢佳媛张民
- 文献传递
- 面向序列标注问题的异构数据融合
- 有指导的统计机器学习方法大多使用单个人工标注数据训练模型参数。然而单个人工标注数据的规模和领域覆盖面通常很受限,且人工标注新的数据费时费力。本文以中文词性标注任务为例,研究利用多个遵守不同标注规范的人工标注语料(即多源异...
- 巢佳媛
- 关键词:条件随机场
- 文献传递
- 主题模型在统计机器翻译中的应用被引量:1
- 2013年
- 在基于短语的统计机器翻译中,短语表是解码器工作的核心部分,它主要包含了源端和目标端短语的翻译概率和词汇互译概率;但传统的短语表数量庞大,并且领域自适应能力差。为了在解码过程中挑选出更高质量的短语对,适当减少内存消耗和缩小解码空间,本文介绍了一个简单易行的基于主题模型的统计机器翻译系统的实现:首先使用LDA工具建立主题模型,然后把主题模型信息嵌入到短语表中,最后为解码器设计一个预处理模块可以使解码器不需要改变就可以在翻译过程中根据主题选择合适的短语对,从而提高了翻译的效率和质量。
- 巢佳媛贡正仙
- 关键词:统计机器翻译主题模型LDA