国家社会科学基金(10CYY021)
- 作品数:10 被引量:29H指数:2
- 相关作者:陈小荷冯敏萱曲维光陈家骏李斌更多>>
- 相关机构:南京师范大学南京大学江苏省信息安全保密技术工程研究中心更多>>
- 发文基金:国家社会科学基金江苏省教育厅哲学社会科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 基于机器学习与语义知识的动词隐喻识别被引量:2
- 2011年
- 在自然语言中,动词的用法主要包含3种:字面、转喻和隐喻.动词的隐喻用法在隐喻的研究中占有重要的地位.动词的隐喻计算包含两个子任务:隐喻识别和隐喻理解.本文采用条件随机场、最大熵模型来识别动词的隐喻搭配,并在此基础上,加入了两种语义信:息《同义词词林》的同义词信息和《知网》的语义信息来识别动词的隐喻表达,实验识别正确率可达94.47%.
- 赵红艳曲维光张芬周俊生
- 关键词:知网同义词词林
- 基于双语平行语料的中文缩略语提取方法
- 汉语缩略语在现代汉语中被广泛使用,其相关研究对于中文信息处理有着重要的意义。本文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。我们首先对双语语料进行词对齐训练,利用训练得到的词对齐信息抽取出候选中英文短语对。然后...
- 刘友强李斌奚宁陈家骏
- 关键词:缩略语平行语料库短语抽取
- 文献传递
- 树库中双词搭配的自动获取和识别研究
- 2011年
- 大规模语料中的搭配自动获取和识别技术是自然语言处理领域的基础性工作之一。句子中的搭配和句法结构密切相关,从句法对搭配进行约束的角度,分别提出了一种保留结构中心词的搭配获取方法和一种添加了句法规则约束的搭配识别方法。实验结果表明,保留结构中心词的搭配获取方法能够较为有效地从树库中抽取搭配;添加了句法规则约束的搭配识别方法较之简单查表的搭配识别方法有10%~15%的效果提升。
- 徐润华冯敏萱陈小荷
- 关键词:句法结构
- 基于互联网的汉语认知属性获取及分析被引量:17
- 2012年
- 认知语义学强调词语的日常感知意义的描写,但传统的人工描写方式存在搜集难度大、主观性过强两大困难。本文基于互联网数据,利用知网收录的51020个名词、27901个动词和12252个形容词自动采集词语的认知属性,得到120多万条原始记录。对这些结果按词类进行详细的频率统计和数据分析,构建了6000多词条的汉语常用词语的认知属性库,尝试了夸张和反讽的自动生成。该研究可应用于计算机理解和生成修辞表达、语言教学、词典编纂和机器翻译等领域。
- 李斌陈家骏陈小荷
- 关键词:隐喻
- 先秦词汇的时代特征自动获取及文献时代的自动判定被引量:4
- 2013年
- 词汇的时代特征能反应词汇在一个时代发展变化的规律。该文将先秦分为前春秋、春秋和战国三个时代,获取并研究这三个时代的时代独有词、时代特征词及时代发源词。该文提出两种自动判断先秦文献时代的方法,分别基于向量相似度和朴素贝叶斯分类器,在25种先秦文献上后者的分类性能更稳定。最后该文使用朴素贝叶斯分类器验证了《列子》并非成书于先秦。
- 刘浏李斌李斌曲维光
- 关键词:向量空间模型朴素贝叶斯分类器
- 基于《汉语大词典》的汉语当代词汇来源计量研究
- 汉语词汇的演变是汉语史研究的重要组成部分,也是厘清现代汉语词汇来源的基础。由于缺乏高质量的大规模历时语料库,汉语的词汇尚难得到整体的演化概貌,也无法定量描述汉语词汇演化规律。而兼收古今词汇和义项的《汉语大词典》,能够在很...
- 刘雪扬李斌张颖杰刘浏
- 关键词:汉语大词典
- 文献传递
- 现代汉语“V+N”序列关系的平行处理被引量:1
- 2010年
- 目前,在英汉平行语料中,对汉语文本的深加工多局限于只利用单语分析的成果,没有充分利用双语资源。以现代汉语v+n序列的结构关系为研究对象,设计出在英汉平行语料中识别v+n结构关系的平行处理算法:首先利用各种单语资源,提取出构成不同结构关系的动词和名词相互间的制约规则,再分别依据v+n中汉语名词、动词的语义在英语译文中的具体形式及上下文模板来判断v+n的结构关系类型。实验证明,在自动分词和词性标注的PCCE1000文本中,v+n单语处理的F值为72.14%,而进一步利用汉英词典和英语译文信息,F值到达了88.81%,提高了16.67个百分点。
- 冯敏萱
- 关键词:平行语料词语搭配自动识别中文信息处理
- 基于双语平行语料的中文缩略语提取方法被引量:2
- 2012年
- 汉语缩略语在现代汉语中被广泛使用,其研究对于中文信息处理有着重要地意义。该文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。首先对双语语料进行词对齐,再抽取出与词对齐信息一致的双语短语对,然后用SVM分类器提取出质量高的双语短语对,最后再从质量高的短语对集合中利用相同英文及少量汉语缩略—全称对应规则提取出汉语缩略语及全称语对。实验结果表明,利用平行语料的双语对译信息,自动提取出的缩略语具有较高地准确率,可以作为一种自动获取缩略语词典的有效方法。
- 刘友强李斌奚宁奚宁
- 关键词:缩略语平行语料库短语抽取
- 基于认知属性知识库的副名结构新探
- 程度副词修饰名词的特殊现象一直为汉语学界所重视,近年来程度副词提取名词的属性特征的说法被较多接受。然而名词的属性特征到底有哪些,始终存在着主观性差异和个例分析的状态。另一方面,很多具备属性特征的名词却很难进入副名结构,也...
- 李斌马燕刘雪扬唐旭日
- 关键词:副名结构语言知识库认知语义学
- 文献传递
- 基于词典的半指导学习古汉语全文词义标注
- 词义消歧是自然语言处理中的一项基础任务。本文针对先秦古汉语这特殊的语言材料,将WSD的过程分为先区分拼音后区分具体词义这两个步骤。实验过程使用了《汉语大词典2.0》为知识来源,《左传》为语料,采用了基于支持向量机(SVM...
- 张颖杰李斌陈家骏陈小荷
- 关键词:词义消歧古汉语自然语言处理
- 文献传递