国家自然科学基金(60873013) 作品数:11 被引量:79 H指数:6 相关作者: 张仰森 康海燕 孙超 王俊生 施运梅 更多>> 相关机构: 北京信息科技大学 北京语言大学 北京工业大学 更多>> 发文基金: 国家自然科学基金 北京市自然科学基金 北京市属高等学校人才强教计划资助项目 更多>> 相关领域: 自动化与计算机技术 更多>>
基于《知网》义原搭配的中文文本语义级自动查错研究 被引量:12 2010年 语义级的自动查错一直是汉语文本自动校对技术的难点。针对汉语文本中的语义搭配错误,提出了一种基于《知网》义原搭配的有效的自动查错方法,主要包括语义知识库的构建和自动查错算法。语义知识库的构建分为两步:①根据规则从训练语料中统计出大量的动词与名词之间的二元搭配组合,并利用互信息等因素筛选记录;②利用《知网》对词语义项的义原描述(对于动词抽取其义项中的主义原,名词抽取其义项中的主义原和常见的4个辅助义原),将动词与名词的二元搭配组合转变为义原之间相互制约的多元组合。在语义知识库的基础上设计相应的自动查错算法。实验结果显示,该方法的召回率为35%,精确率为82.3%,具有较好的应用前景。 郭充 张仰森关键词:互信息 知网 语义知识库 基于自然语言处理的多级网页过滤器研究 被引量:2 2011年 针对现有网页过滤系统的不足和实时网络信息过滤的新挑战,提出新一代多级网页智能过滤解决方案:主要采用Mimefilte r技术,结合多级过滤方法对网页进行过滤。利用分类算法对已知的训练样本进行学习,提取特征向量,构造二值分类器。然后运用此分类器,对新的网页进行过滤,将过滤的结果提交给用户,用户可对过滤结果进行评价反馈,系统再根据反馈对过滤器进行调整。基于上述方法和理论,在Java EE 6+MySQL5.1平台上设计并开发了一个多级网页过滤系统。它能在提高信息安全度和不降低信息共享度之间找到一个平衡点。实验证明了多级过滤相结合的网页过滤器是可行的、高效的。 康海燕 任俊玲 陈昕 王鹤沩关键词:网页过滤 自然语言处理 利用浅层句法分析提取特征的词义消歧 被引量:1 2010年 针对如何从文本中提取高质量消歧特征的问题,提出了基于浅层句法分析的消歧特征提取算法,建立了以语块分析识别为核心的特征提取模型。该模型通过对实词类型语块识别、分析中心词语词性和虚词类型语块分析,得到多义词的消歧特征。以北京大学计算语言研究所的现代汉语基本标注语料库为基础,选取了44个多义词,通过使用最大熵消歧模型进行训练和预测实验,准确率达到了78.71%。 孙超 张仰森关键词:词义消歧 浅层句法分析 语块 特征提取 最大熵模型 基于最大熵模型的汉语词义消歧与标注方法 被引量:9 2009年 分析最大熵模型开源代码的原理和各参数的意义,采用频次和平均互信息相结合特征筛选和过滤方法,用Delphi语言编程实现汉语词义消歧的最大熵模型,运用GIS(Generalized Iterative Scaling)算法计算模型的参数。结合一些语言知识规则解决训练语料的数据稀疏问题,所实现的汉语词义消歧与标注系统,对800多个多义词进行词义标注,取得了较好的标注正确率。 张仰森关键词:最大熵模型 基于隐最大熵原理的汉语词义消歧方法 本文针对最大熵原理只能利用上下文中的显性统计特征构建语言模型的特点,提出了采用隐最大熵原理构建汉语词义消歧模型的方法。在研究了《知网》中词语与义原之间的关系之后,把从训练语料获取的文本上下文中的词语搭配信息转换为义原搭配... 张仰森 黄改娟 苏文杰关键词:词义消歧 文献传递 面向综合语言知识库的知识融合与获取研究 被引量:2 2010年 针对如何填补语料库和电子词典的数据结构之间的差异,如何将语料库与电子词典融合到综合语言知识库系统中,并进行多语言知识资源之间的交叉参考等问题,提出并实现了一种便捷的语言知识查阅方法。该方法以语料库为基础,利用鼠标左键点击完成从电子词典中获取相关知识的操作。通过在北大语料检索工具上的实验,使得用户在浏览语料的同时即可获取电子词典中相应的词汇知识,实现了语料库和词典间便捷、准确的对应和参照,体现了此方法的优势。 孙超 张仰森关键词:语料库 电子词典 自然语言处理 知识获取方法 基于Hadoop的分布式搜索引擎关键技术 被引量:16 2011年 实现了基于Hadoop的分布式搜索引擎,着重讨论了实现分布式搜索引擎涉及的3个关键性技术:索引表的建立、分词的处理和索引前的预处理。通过实验对比了集中式搜索引擎和分布式搜索引擎,结果表明了基于hadoop的分布式搜索引擎在处理数据方面强劲的优势。 王俊生 施运梅 张仰森关键词:HADOOP 分布式搜索引擎 MAP/REDUCE 索引表 分词 智能化立体仓库入库货位分配的综合优化算法 被引量:14 2010年 智能化立体仓库对现代企业提高仓储利用率和生产效率具有重要作用。介绍了秦皇岛港务集团公司立体仓库管理系统中仓库货位计算机分配的智能化算法,该算法充分考虑了重量均匀分布、就近货位选择、备件品种均匀分布、备件使用率、货位空置时间等因素,根据整个仓库的当前状态计算入库货位,为入库货位的选择提供辅助决策。实际项目运行表明,所提的综合货位优化分配算法是有效的,对提高仓库的安全性、入库工作效率等具有非常重要的意义。 张仰森 刘安宇汉语统计语言模型训练样本容量的定量化度量 被引量:1 2009年 统计语言模型的参数训练是语言建模的关键,选择多大的训练样本就能够达到建模的参数估计误差要求,是语言建模理论关心的问题之一。应用数理统计理论对汉语统计语言模型的训练语料样本容量进行了定量化描述,给出了汉语n-gram模型训练样本容量下界的估算方法及量化估算公式,可根据模型参数估计的误差要求计算出模型训练所需的样本容量。 张仰森词义标注一致性检验系统的设计与实现 被引量:3 2010年 词义消歧是自然语言处理领域的一个重要研究课题。词义标注的一致性将直接影响语料库的建设质量,进而直接或间接影响到其相关的应用领域。由于语言本身的复杂性与发展性以及算法设计的难点和缺陷,目前各种词义标注的算法与模型还不能百分之百正确地标注词义,即不能保证词义消歧的正确性与一致性。而人工校验在时间、人力方面的投入是个难题。该文在对《人民日报》语料、语句相似度算法和语义资源《知网》研究的基础上,提出了对《人民日报》语料词义标注进行一致性检验的方法。实验结果表明,此方法是有效的。 乔剑敏 张仰森关键词:计算机应用 中文信息处理 词义标注 《知网》 语料 语句相似度