叶育鑫
- 作品数:42 被引量:162H指数:7
- 供职机构:吉林大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金吉林省科技发展计划基金教育部“新世纪优秀人才支持计划”更多>>
- 相关领域:自动化与计算机技术天文地球文化科学矿业工程更多>>
- 基于带噪观测的远监督神经网络关系抽取被引量:9
- 2020年
- 远监督关系抽取的最大优势是通过知识库和自然语言文本的自动对齐生成标记数据.这种简单的自动对齐机制在将人从繁重的样本标注工作中解放出来的同时,不可避免地会产生各种错误数据标记,进而影响构建高质量的关系抽取模型.针对远监督关系抽取任务中的标记噪声问题,提出“最终句子对齐的标签是基于某些未知因素所生成的带噪观测结果”这一假设.并在此假设的基础上,构建由编码层、基于噪声分布的注意力层、真实标签输出层和带噪观测层的新型关系抽取模型.模型利用自动标记的数据学习真实标签到噪声标签的转移概率,并在测试阶段,通过真实标签输出层得到最终的关系分类.随后,研究带噪观测模型与深度神经网络的结合,重点讨论基于深度神经网络编码的噪声分布注意力机制以及深度神经网络框架下不均衡样本的降噪处理.通过以上研究,进一步提升基于带噪观测远监督关系抽取模型的抽取精度和鲁棒性.最后,在公测数据集和同等参数设置下进行带噪观测远监督关系抽取模型的验证实验,通过分析样本噪声的分布情况,对在各种样本噪声分布下的带噪观测模型进行性能评价,并与现有的主流基线方法进行比较.结果显示,所提出的带噪观测模型具有更高的准确率和召回率.
- 叶育鑫薛环王璐欧阳丹彤
- 关键词:关系抽取
- 基于半模型的OWL本体理由探求方法研究被引量:1
- 2018年
- OWL本体理由探求是语义Web推理的重要任务之一.随着语义Web数据的急剧增长以及本体规模的不断扩大,目前的本体理由探求策略已难以满足它们对推理性能的要求.该文以基于黑盒的探求技术为研究对象,黑盒法是基于"扩张"和"收缩"两个阶段实现理由探求任务的,"扩张"阶段的目标是获得蕴涵目标公理的理由的一个超集,"收缩"阶段对得到的理由超集进行删减至极小集合.然而,这两个阶段的主要时间开销在于频繁地调用推理机进行变化的公理集合与目标公理之间的蕴涵关系的检测,这会严重影响理由探求的效率.为了解决这一问题,通过观察理由探求过程中公理集合的变化情况,给出增量本体序列定义,并揭示了增量本体序列中的最大增量本体与理由之间的关系.增量本体序列的生成过程主要涉及两方面因素:(1)后继本体对先驱本体的有效扩充(必须保证是拟序关系);(2)对本体链中的本体是否蕴涵目标公理的推理判定(必须保证当且仅当最大本体蕴涵目标公理).在增量本体序列生成过程中,利用半模型证明了后继增量本体与目标公理之间的蕴涵关系是半可判定的,进而给出基于半模型增量推理的理由超集探求算法及其正确性证明.半模型增量推理的增量体现在:保留上一次得到的模型作为下一次判定的初始条件之一,从而避免传统蕴涵判定中,每一次都完全重构模型的冗余计算.最后,提出了一种与现有的收缩过程相反的理由求解方案——基于扩张的理由求解策略.通过迭代地添加公理过程,探测该公理集下的所有理由的公共元素.利用探测到的所有公共元素构造目标公理的理由.随后利用该文提出的增量推理任务分别给出新的"扩-缩"理由探求方法和"双扩"理由探求方法.实验结果表明,改进后的"扩-缩"理由探求方法在求解性能上优于原有的"扩-缩"理由探求方法;而新提�
- 张瑜张瑜欧阳丹彤叶育鑫
- 关键词:OWL本体
- 基于SHOIQ(D)的本体一致性检测被引量:9
- 2009年
- SHOIQ(D)是一种表述能力较强的本体知识表示语言。一致性检测是本体推理的核心任务之一,其它推理任务都可以等效地转换为一致性检测问题。本文在对Tableau演算研究的基础上,通过引入回跳和布尔约束传播优化技术,提高算法推理效率,并以此算法为核心,给出基于SHOIQ(D)语言的本体一致性检测推理机的总体设计方案及实现。
- 叶育鑫欧阳丹彤刘瑶孙吉贵
- 关键词:本体优化技术
- 间接使用扩展规则求解#SAT问题被引量:2
- 2011年
- 针对求解#SAT问题时算法时间会随着子句集的规模迅速增加的问题,提出一种间接应用扩展规则的MCEHST算法。该算法首先求出子句集的所有极小碰集,然后应用扩展规则计算这些极小碰集所能扩展出的极大项的数量,即模型数。实验结果表明:MCEHST算法运行时间随子句集规模增加的速度要比CDP和CER算法慢;当子句的长度较短、子句数较多时,MCEHST算法的时间效率较高。
- 许有军欧阳丹彤叶育鑫何加亮
- 关键词:人工智能
- 基于深度学习的语言模型研究进展被引量:42
- 2021年
- 语言模型旨在对语言的内隐知识进行表示,作为自然语言处理的基本问题,一直广受关注.基于深度学习的语言模型是目前自然语言处理领域的研究热点,通过预训练-微调技术展现了内在强大的表示能力,并能够大幅提升下游任务性能.围绕语言模型基本原理和不同应用方向,以神经概率语言模型与预训练语言模型作为深度学习与自然语言处理结合的切入点,从语言模型的基本概念和理论出发,介绍了神经概率与预训练模型的应用情况和当前面临的挑战,对现有神经概率、预训练语言模型及方法进行了对比和分析.同时又从新型训练任务和改进网络结构两方面对预训练语言模型训练方法进行了详细阐述,并对目前预训练模型在规模压缩、知识融合、多模态和跨语言等研究方向进行了概述和评价.最后总结了语言模型在当前自然语言处理应用中的瓶颈,对未来可能的研究重点做出展望.
- 王乃钰叶育鑫刘露凤丽洲包铁彭涛
- 关键词:语言模型自然语言处理
- 基于领域本体的语义搜索系统及搜索方法
- 基于领域本体的语义搜索系统及搜索方法,涉及信息检索技术领域,解决现有搜索技术并没有考虑具体实例资源与查询概念之间的关系以及实例资源之间的关系等问题,包括领域本体库,语义标注后的资源库,推理规则库,推理节点以及相似度计算节...
- 叶育鑫周黎罗昌凯常志威欧阳丹彤
- 斑岩铜矿知识图谱与信息抽取系统构建
- 矿产资源是自然资源的重要组成部分,是推动人类社会发展的重要基础。已有的矿产资源预测研究更关注控矿要素和成矿标志,而缺少对成矿物质的演化、循环等相关因素之间的关联和制约关系的关注。近年来地学大数据的大幅增长和数据科学的迅速...
- 石佳欢赵登杨玠张振杰叶育鑫周长兵
- 关键词:矿产资源预测知识图谱斑岩铜矿信息抽取命名实体识别关系抽取
- 基于映射规则的数据产品自动生成方法及系统被引量:3
- 2021年
- 随着知识图谱的广泛应用,为了提高从中提取知识数据和产品数据的准确率和效率,以知识图谱为数据源,根据实际业务需求制定业务数据抽取与组织规则(抽取规则即为题目中的映射规则,设计规则的表达描述方法和规范约束,由业务需求者填写实际可实施抽取的规则),支持根据该规则从知识图谱中抽取符合规则的子图。由于该子图符合设计业务需求方的规则,因此该子图包含了符合业务需求的数据和组织结构。通过数据产品生成规则(从结构相对固定,具备实际业务含义的子图数据生成报告文档、统计表格等业务用户最终需要的数据产品),从抽取的子图生成需要的数据产品(报告文档,统计表格等)。通过SPARQL查询语言、自然语言生成等技术实现了以知识图谱为数据源,快速自动地生成文本、图表、报告文档等数据产品,大幅度提升了效率。
- 李子恒叶育鑫曹玲玲刘思培
- 关键词:知识图谱本体自然语言生成
- 一种结合依赖关系消除误判的等价性验证方法
- 本发明涉及一种结合依赖关系消除误判的等价性验证方法,属于模型验证技术领域。在验证等价性的两个电路中,引入新变量代替候选等价点后得到两电路不等价,此时新引入的变量扩大了原候选等价点的取值范围,可能发生误判。为消除误判,本方...
- 张立明欧阳丹彤赵毅叶育鑫李占山张永刚于海鸿李河刘杰董旭初
- 文献传递
- 计算机专业课程群的网络教学平台建设
- 当前计算机专业的网络教学课程独立分散,缺乏有效整合,难以形成合力且不可持续性的建设.文章在剖析高校计算机专业课程整体化建设难点的基础上,针对课程群中不同课程的实际情况,提出分批次原则建设课程群网络平台.同时,在归纳总结不...
- 黄岚叶育鑫金京姬欧阳丹彤
- 关键词:高等教育计算机专业课程群网络教学平台