搜索到340篇“ 汉语分词“的相关文章
基于汉语分词特征分析的写作能力评估方法及装置
本发明涉及数据处理技术领域,公开了一种基于汉语分词特征分析的写作能力评估方法及装置,其中,方法包括:获取待测试对象的写作文本,并提取写作文本在一个或者多个指定维度下的特征序列;针对一个或者多个指定维度中任一目标维度下的特...
池霞赵浩朱松青洪琴杜江波解雅春姚梦梦王偲管芳
汉语分词方法、装置、服务器及存储介质
本申请涉及自然语言处理领域,提供了一种汉语分词方法、装置、服务器及存储介质,包括:利用预设词频词典对待测语句进行分词,得到第一分词结果;在第一分词结果中存在词组含有相同汉字的情况下,计算待测语句与预设语料库中的各预设语句...
黄逸嘉赵晓辉
基于图卷积神经网络的古汉语分词研究被引量:5
2023年
汉语的语法有省略、语序倒置的特点,词法有词类活用、代词名词丰富的特点,这些特点增加了古汉语分词的难度,并带来严重的out-of-vocabulary(OOV)问题。目前,深度学习方法已被广泛地应用在古汉语分词任务中并取得了成功,但是这些研究更关注的是如何提高分词效果,忽视了分词任务中的一大挑战,即OOV问题。因此,本文提出了一种基于图卷积神经网络的古汉语分词框架,通过结合预训练语言模型和图卷积神经网络,将外部知识融合到神经网络模型中来提高分词性能并缓解OOV问题。在《左传》《战国策》和《儒林外史》3个古汉语分词数据集上的研究结果显示,本文模型提高了3个数据集的分词表现。进一步的研究分析证明,本文模型能够有效地融合词典和N-gram信息;特别是N-gram有助于缓解OOV问题。
唐雪梅苏祺王军王军
关键词:古汉语汉语分词
一种基于词对齐的古汉语分词与词性标注数据扩增方法
本发明公开了一种基于词对齐的古汉语分词与词性标注数据扩增方法,该方法包括:首先,对平行语料库中的现代汉语进行分词和词性标注,对古汉语逐字进行拆分,并对预处理后的现代汉语和古汉语使用IBMModel4模型进行词对齐;然后,...
丰硕李丕绩
第一届古代汉语分词和词性标注国际评测被引量:4
2023年
中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,评测以人工标校的精加工语料库作为统一的训练数据,以F_(1)值作为评测指标,比较了古汉语词法分析系统在测试数据(基测集和盲测集)上的优劣。评测还根据是否使用外部资源,区分出开放和封闭两种测试模式。该评测在第十三届语言资源与评测会议的第二届历史和古代语言技术研讨会上举办,共有14支队伍参赛。在基测集上,封闭测试模式分词和词性标注的F_(1)值分别达到了96.16%和92.05%,开放测试模式分词和词性标注的F_(1)值分别达到了96.34%和92.56%。在盲测集上,封闭测试分词和词性标注的F_(1)值分别达到93.64%和87.77%,开放测试分词和词性标注F_(1)值则分别达到95.03%和89.47%。未登录词依然是古代汉语词法分析的瓶颈。该评测的最优系统把目前古汉语词法分析提高到新的水平,深度学习和预训练模型有力地提高了古汉语自动分析的效果。
李斌袁义国芦靖雅冯敏萱许超曲维光王东波
关键词:古汉语评测自动分词词性标注
从助词标注看汉语分词软件的问题
2023年
以中文分词标注软件CorpusWordParser对助词标注的结果为研究对象,总结出六种标注错误类型:动词标记为助词、名词标记为助词、量词标记为助词或介词、代词标记为助词、助词标记为动词、助词标记为形容词。同时,比较了同类型的分词标注软件“ICTCLAS”,发现“ICTCLAS”分词和标记词性的正确率高于“CorpusWordParser”,且两款软件存在共同的标记错误之处。最后,根据存在的共同错误类型,提出了相应的改进建议。汉语分词、标记技术研究以及方法研究等方面还有待改进和提升,人工检查在研究中必不可少,加强人工检查,能够提高词性标记的准确率。
郭康平冯莉
关键词:助词分词
上古汉语分词与词性标注加工规范——基于《史记》深加工语料库的标注实践被引量:1
2023年
上古(先秦两汉)时期流传至今的古籍经典数量大、价值高,亟需进行计算处理和挖掘,作为词法分析的分词与词性标注就成为古汉语信息处理的基础性工作。古汉语文本具有缺乏词语边界、内容艰深、与现代汉语差异大、不同时期差异大等特点,古文分词与词性标注一直处于研究不足、缺乏标注规范的状态,限制了语料库构建和自动分析的研究。本文针对这一问题,根据现代汉语研究领域相关成果以及上古汉语词汇特点,构建出信息处理用上古汉语分词与词性标注规范。规范由原则和细则两部分组成。原则部分包括单字词优先等7条分词原则,具体语境中的语法功能等3条词类划分及词性标注原则。古汉语词类划分为14个一级类和15个二级类,细则部分包含了大量语言现象标注实例。该规范在45万余字《史记》语料库的建设过程中不断修改完善。语料统计得出了《史记》单字词和多字词的词例数量以及最高频词类。本文可以为上古汉语深加工语料库建设提供基础支撑,助推古汉语信息处理标准化和规范化。
郑童哲恒李斌
关键词:上古汉语词语切分词性标注《史记》
大规模现代汉语分词语料库构建及应用
语料库是人工智能算法的训练集,直接决定了机器学习的运算效果。本书在系统综述语料库构建情况的基础上,选取2015年1-6月、2016年1月、2017年1月、2018年1月、2022年1月共10个月的《人民日报》发表的全部文...
黄水清
繁体古汉语分词后基于LightGBM和K-Means的唐宋诗风格划分
"诗分唐宋",唐宋诗不仅是朝代之分,也是两种不同美学风格的差异。本文基于繁体的《全唐诗》和《全宋诗》,从定量角度对唐宋诗在风格上的差异展开研究,建立了不同粒度的唐宋诗人风格分类和聚类模型。本文首先基于"甲言"进行分词处理...
陈珂张语妍陈挺江东键牟倍民
关键词:唐宋诗之争
一种基于预训练的古汉语分词模型
随着古籍智能处理与数字人文等领域研究的深化,传统的静态地训练字词向量的Word2Vec的方法无法进一步提升任务的精度。为此构建了古文语料,提出一种面向古汉语的Bert预训练模型SikuBert-CNN-CRF,通过领域适...
唐俊高大贵陈铭萱杨璐龚乐君
关键词:命名实体识别条件随机场

相关作者

王晓龙
作品数:173被引量:1,173H指数:20
供职机构:哈尔滨工业大学
研究主题:音字转换 语句 自然语言处理 中文信息处理 语言模型
于江德
作品数:58被引量:182H指数:9
供职机构:安阳师范学院
研究主题:条件随机场 最大熵模型 信息抽取 汉语分词 词位标注
王希杰
作品数:32被引量:116H指数:7
供职机构:安阳师范学院
研究主题:汉语分词 词位标注 条件随机场 上下文 词性标注
孙茂松
作品数:351被引量:2,346H指数:25
供职机构:清华大学
研究主题:向量 中文信息处理 机器翻译 句子 自然语言处理
樊孝忠
作品数:152被引量:1,215H指数:19
供职机构:北京理工大学计算机学院
研究主题:信息抽取 向量空间模型 自然语言理解 本体 信息检索