常宝宝
作品数: 60被引量:465H指数:12
  • 所属机构:北京大学
  • 所在地区:北京市
  • 研究方向:自动化与计算机技术
  • 发文基金:国家自然科学基金

相关作者

詹卫东
作品数:63被引量:512H指数:14
供职机构:北京大学中国语言文学系
研究主题:构式 自然语言处理 现代汉语 机器翻译 汉语
穗志方
作品数:81被引量:448H指数:14
供职机构:北京大学
研究主题:自然语言处理 语义角色标注 知识图谱 中文信息处理 知识工程
俞士汶
作品数:157被引量:1,848H指数:25
供职机构:北京大学信息科学技术学院计算语言学研究所
研究主题:自然语言处理 中文信息处理 计算语言学 现代汉语 计算机应用
陈亮
作品数:33被引量:0H指数:0
供职机构:北京大学
研究主题:图像 沟道 计算机图形学 栅压 高K栅介质
丁伟伟
作品数:5被引量:35H指数:2
供职机构:北京大学信息科学技术学院计算语言学研究所
研究主题:汉语语义 中文信息处理 角色标注 最大熵 贪心策略
服务于汉英机器翻译的双语对齐语料库和短语库建设
机器翻译研究是一项十分具有挑战性的课题,机器翻译系统的翻译质量不但依赖于机器翻译方法和语言计算模型的创新性研究,也有赖于服务于机器翻译的语言资源的建设和积累,本文描述了服务于汉英机器翻译翻译的双语对齐语料库以及汉英双语短...
常宝宝詹卫东柏晓静吴云芳张化瑞
关键词:机器翻译汉英翻译
文献传递
一种基于提示学习的文本分类方法
本发明公开了一种基于提示学习的文本分类方法,属于自然语言处理中的文本分类领域。本发明根据输入文本调优提示参数,将输入文本和调优后的提示参数拼接后输入语言模型进行文本分类。本发明为每条数据生成专属提示,使得提示生成过程能共...
常宝宝蔡泽凡许润昕
一种基于N-Best结果组合优选的词语对齐方法
本文提出了一种从句对齐语料中抽取出词语对齐的新颖方法。文章比较了主流的词语对齐方法,分析了IBM模型,发现模型在挑选最佳对齐方面的缺陷。我们对每组对齐取NBest的结果,然后利用有监督的学习方法对NBest结果进行组合优...
朱丹青常宝宝
关键词:汉字处理词语对齐数理语言学
文献传递
中文医学知识图谱CMeKG构建初探被引量:59
2019年
医学知识图谱是智慧医疗应用的基石,可以为机器阅读理解医学文本、智能咨询、智能诊断提供知识基础。现有的医学知识图谱从规模化、规范化、体系性、形式化等方面还不足以满足智慧医疗应用的需求。此外,对复杂医学知识的精准描述更是构建医学知识图谱面临的重要挑战。针对上述问题,该文利用自然语言处理与文本挖掘技术,以人机结合的方式研发了中文医学知识图谱第一版CMeKG 1.0(Chinese Medical Knowledge Graph)。CMeKG 1.0的构建参考了ICD-10、ATC、MeSH等权威的国际医学标准术语集以及规模庞大、多源异构的临床路径指南、临床实践、医学百科等资源,覆盖了疾病、药物和诊疗技术,包括100余万个医学概念关系的实例。该文综述了CMeKG 1.0构建过程中的描述体系、关键技术、构建流程以及医学知识描述等相关问题,希望为医学领域知识图谱的构建与应用提供一些参考。
奥德玛杨云飞穗志方代达劢常宝宝常宝宝昝红英
关键词:知识图谱知识提取
基于高斯混合模型的现代汉语构式成分自动标注方法被引量:3
2020年
现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况。该文试图借助高斯混合模型聚类方法,结合句中每一个字的位置特征与构式形式本身的语言学特征,融合正则表达式匹配结果信息,挖掘句子中的构式实例序列,并对构式内部成分进行自动标注。相较于仅基于正则表达式匹配和词性匹配的自动标注结果,该方法的F1分别至少提高了17.9%(半凝固型构式)、19.3%(短语型构式)、14.9%(复句型构式)。
黄海斌常宝宝詹卫东
关键词:高斯混合模型数据挖掘
精细化的中文词性标注评测集的研制
2020年
该文提出了一套精细化的中文词性标注评测体系。该文的工作重点在于确立其中的评测项目以及每个项目所对应的词例,提出了比对、归类、合取的方法;依此,该文初步建立了规模为5873句、涵盖了2326项词例和70个评测项目的评测试题集,并用这套试题集对几个常见的开源词性标注程序进行了评测。最后,该文指出了精细化评测体系将评测项目和评测语料联系起来的好处——在传统体系中,两者是分开的。该文从评测项目的价值和评测语料的组织性两个方面阐述了该文的评测体系相对于传统评测体系的优势,并指出了利用该文提出的评测体系改进被测程序的方法。
唐乾桐常宝宝詹卫东
关键词:词性标注语言资源
基于边界熵和卡方统计量的多领域适应性中文分词方法
字标注分词方法是当前中文分词领域中一种较为有效的分词方法。本文采用有指导的学习方法,基于CRF模型,提出使用边界熵和卡方统计量相结合的特征,进一步改善字标注分词方法的性能。同时,我们也就AV(AccessorVariet...
韩冬煦常宝宝
关键词:中文分词
文献传递
融合知识的多目标词联合框架语义分析模型
2024年
框架语义分析任务是自然语言处理领域的一项基础性任务。先前的研究工作大多针对单目标词进行模型设计,无法一次性完成多个目标词的框架语义结构提取。该文提出一个面向多目标的框架语义分析模型,实现对多目标词的联合预测。该模型对框架语义分析的各项子任务进行交互性建模,实现子任务间的双向交互。此外,该文利用关系图网络对框架关系信息进行编码,将其作为框架语义学知识融入模型中。实验表明,该文模型在不借助额外语料的情况下相比之前模型都有不同程度的提高。消融实验证明了该文模型设计的有效性。此外,该文分析了模型目前存在的局限性以及未来的改进方向。
陈旭东郑策常宝宝
关键词:框架网络
基于北京大学中文网库的语义角色分类被引量:6
2011年
语义角色标注的研究方法中使用最频繁的一类是基于特征工程,将任务转化成分类问题使用机器学习的方法来解决,几乎所有的有指导语义角色标注采用的标注语料都是宾州大学命题库标注体系。近年来,北京大学开发出一套新的标注语料—北京大学中文网库,该文的目的在于测试这类研究方法在新语料的效果,验证之前所使用的特征是否对标注语料具有依赖性。通过实验发现前人方法中的一些不足,尤其个别特征在北大网库上作用更关键。
杨敏常宝宝
关键词:语义角色标注
汉语短语结构定界歧义类型分析及分布统计被引量:34
1999年
本文对汉语短语结构的定界歧义做了全面考察,从歧义格式的组成成分,歧义对外造成的影响,模式歧义和实例歧义的对应关系三方面考察了短语结构定界歧义的不同类型,并对汉语短语结构定界歧义的不同类型进行了初步统计。希望能将计算机处理汉语时碰到的短语结构边界歧义问题进一步清晰化,供理论研究者和应用系统开发人员参考。
詹卫东常宝宝俞士汶
关键词:短语自然语言处理汉语