黄书剑
- 作品数:108 被引量:57H指数:3
- 供职机构:南京大学更多>>
- 发文基金:国家自然科学基金国家社会科学基金江苏省自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学语言文字经济管理更多>>
- 一种自动探索更多参考译文信息的机器翻译优化方法
- 本发明公开了一种自动探索更多参考译文信息的机器翻译优化方法,利用图扩展参考译文的信息,对机器翻译得到的译文进行更充分的评价,同时在利用译文信息扩展的评价方法参与训练过程时,帮助系统更好的进行参数学习。主要步骤如下:利用G...
- 黄书剑季红洁戴新宇陈家骏张建兵
- 一种基于深度对齐矩阵分解模型进行学术论文推荐的方法
- 本发明公开了一种基于深度对齐矩阵分解模型进行学术论文推荐的方法,包括:分别通过两个非线性多层感知器,将用户和论文以及论文和单词映射到相同维度的低维特征空间;通过最大化同一篇论文的两种低维表示向量之间的相似度,在两个非线性...
- 戴新宇戴瑾黄书剑张建兵尹存燕陈家骏
- 文献传递
- 利用基于词上下文的字嵌入与神经网络的中文分词方法
- 本发明提出了一种利用基于词上下文的字嵌入与神经网络的中文分词方法,在大规模的自动切分数据上学习字嵌入,将学习得到的字嵌入作为神经网络分词模型的输入,可以有效帮助模型学习。具体步骤如下:根据字上下文以及词位标记在大规模自动...
- 戴新宇郁振庭陈家骏黄书剑张建兵
- 文献传递
- 利用外部信息的神经机器翻译方法
- 本公开涉及利用外部信息的神经机器翻译方法,包括:接收源端源语言的文字序列作为源端输入;接收目标语言的文字序列作为外部信息输入;根据源端输入和外部信息输入,生成源端源语言文字序列的译文作为目标端输出。本公开提供的神经机器翻...
- 黄书剑郑在翔戴新宇张建兵尹存燕陈家骏
- 文献传递
- 一种基于层间自注意力的中文拼写纠错方法
- 本发明提出了一种基于层间自注意力的中文拼写纠错方法,其利用n元语法令牌作为查询,对BERT的不同层上的字符表示进行自注意力查询并加权融合,并利用字符的最终表示进行拼写纠错任务。通过引入BERT编码器中不同层次的抽象知识,...
- 戴新宇曹永昌何亮吴震张建兵黄书剑陈家骏
- 一种计算机中限定翻译片段的交互式翻译方法
- 本发明提出了一种计算机中限定翻译片段的交互式翻译方法,包括:用户输入需要翻译的句子,由系统给出原始翻译结果,当用户对系统给出的翻译结果的顺序有不同意见,通过点击操作对源语言片段进行限制,使得其作为一个完整的整体,系统根据...
- 黄书剑程善伯戴新宇陈家骏张建兵
- 一种适用于机器翻译的汉语分词方法被引量:2
- 2012年
- 汉语分词是搭建汉语到其他语言的统计机器翻译系统的一项重要工作。从单语语料中训练得到的传统分词模型并不一定完全适合机器翻译[1]。该文提出了一种基于单语和双语知识的适应于统计机器翻译系统的分词方法。首先利用对齐可信度的概念从双语字对齐语料中抽取可信对齐集合,然后根据可信对齐集合对双语语料中的中文部分重新分词;接着将重新分词的结果和单语分词工具的分词结果相融合,得到新的分词结果,并将其作为训练语料,利用条件随机场模型训练出一个融合了单双语知识的分词工具。该文用该工具对机器翻译所需的训练集、开发集和测试集进行分词,并在基于短语的统计机器翻译系统上进行实验。实验结果表明,该文所提的方法提高了系统性能。
- 奚宁李博渊黄书剑陈家骏
- 关键词:中文分词统计机器翻译
- 机器翻译模型的训练方法、装置和存储介质
- 本发明公开了机器翻译模型的训练方法、装置和存储介质,方法为获取第i个词对第t的词的注意力分数;注意力分数和第i个词的词向量加权求和,得隐层向量;计算隐层向量与其对应离散隐变量的每个子属性值距离,距离最近子属性值为离散隐变...
- 黄书剑刘子涵戴新宇张建兵陈家骏
- 基于无指导学习的微博评论分析方法被引量:3
- 2017年
- 该文以一种有效的方法寻找出有价值的微博评论,这对于读者更高效地阅读评论,为舆情分析、文本挖掘等任务提供支持,均具有重要的应用价值。针对微博及其评论文本短小、内容发散等特点,该文提出一种基于无指导学习的微博评论分析方法,该方法通过互联网搜索引擎扩展微博文本,基于相关性计算自动构造正负训练用例,生成特定的某条微博评论分类模型,通过该模型对评论的价值性进行评估。实验结果表明,该方法能够比较好地识别出评论的价值。
- 徐帅帅戴新宇黄书剑陈家骏
- 关键词:价值性无指导学习
- 一种利用多样化文本特征进行文本分类的方法
- 本发明公开了一种利用多样化文本特征进行文本分类的方法,包括以下步骤:使用多维度文本表示算法,生成多组不同的文本特征表示,即纵向生成多维度文本特征表示;使用多种不同的文本表示算法,生成多组不同的文本特征表示,即横向生成多维...
- 黄书剑李念奇戴新宇张建兵尹存燕陈家骏
- 文献传递