苏祺
- 作品数:33 被引量:82H指数:5
- 供职机构:北京大学外国语学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学哲学宗教更多>>
- 基于语料库的我国职业性别无意识偏见共时历时研究被引量:4
- 2021年
- 性别偏见是社会学研究的热点。近年来,机器学习算法从数据中学到偏见,使之得到更广泛的关注,但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究。该文基于标记理论,利用BCC和DCC语料库,从共时和历时两个层面考察了63个职业的性别无意识偏见现象。首先,以调查问卷的形式调研了不同性别和不同年龄段的人群对63个职业的性别倾向,发现和BCC语料库中多领域的职业性别偏见度呈显著的正相关关系。然后从共时的角度,利用BCC语料库中不同领域的语料,以及DCC语料库中2018年全国31个省级行政单位(不含港澳台地区)的报纸语料,发现从口语至书面语语体,大部分职业表现出对女性的性别偏见逐渐升高,且不同地区对职业的性别偏见存在差异。最后,从历时的角度,利用DCC语料库2005至2018年的报纸语料进行统计分析,发现职业性别无意识偏见现象随着时间的推移,呈现总体弱化趋势。
- 朱述承苏祺刘鹏远
- 关键词:语料库性别
- 词性标注对信息检索系统性能的影响
- 在信息检索中引入NLP技术是信息检索发展的主要趋势,本文将NLP中较为成熟的词性标注技术加入信息检索,采用大规模TREC数据集,试图发现词性标注对信息检索系统性能的影响.笔者在SMART检索系统上使用不同标注集、不同索引...
- 苏祺昝红英胡景贺项锟
- 关键词:信息检索向量空间模型词性标注SMART
- 文献传递
- 基于语料库的我国职业性别无意识偏见共时历时研究
- 性别偏见是社会学研究的热点.近年来,机器学习算法从数据中学到偏见使之得到更广泛的关注,但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究.该文基于标记理论,利用BCC和DCC语料库,从共时和历时两个层面考察了63个...
- 朱述承刘鹏远苏祺
- 关键词:职业环境性别倾向语料库
- 数字人文研究的多模态转向
- 2024年
- 数字人文领域正在经历从单一语言中心主义向多模态综合视角的转向,这一转向不仅契合了人类接收与处理信息的自然模式,而且揭示了单模态在解析复杂人文问题时的局限性。多模态数字人文研究强调文字、图像、声音等多元符号资源在意义构建中的互补与协同作用,通过多模态数据的融合实现对人文问题的多维度、深层次理解。随着自然语言处理、计算机视觉以及多模态大模型等技术的飞速发展,多模态数字人文研究迎来了前所未有的发展机遇。然而,人类文化与人文材料的丰富性与复杂性也为其带来了诸多技术挑战。数字人文的多模态转向不仅是自身发展的内在趋势,更是对人类文化本质和信息处理模式的必然回应。它标志着数字人文研究正迈向一个更加综合、开放和包容的新阶段,将为人文问题的数字化研究贡献新的视角。
- 苏祺位通
- 关键词:人工智能
- 《论语》在中国历代儒家典籍中的文本复用与互文分析
- 2024年
- 古代典籍常有袭用前贤文字的现象,或逐字逐句直引原文,或以相近之意异文复用。踵武前贤的文本复用行为使得先贤的思想观念在后世传播演化、历久弥新。然而许多文献在复用前贤文字时并未直接标明因袭的出处,因此人文学者以往是通过逐句对读的方法来研究文本之间的复用关系。本文参考《中国学术名著提要·哲学卷》的目录,选取了上始先秦下迄民国的136本儒学经典书目作为《论语》复用检索的参考语料集合,采用近似最长公共子串匹配方法自动识别和提取后世文献中与《论语》表述相近、取意相同的复用文本,并从篇目、章节和短语三个由粗到精的文本粒度对平行文本进行计量统计。本文结合既有的史学研究问题与观点,观察《论语》在中国儒家经典中被广泛复用的思想主题,及不同类型文献对复用内容的侧重;观察《论语》20篇文本及其思想主题在不同历史阶段的复用频次变化,进而探析不同社会背景下思想受关注程度的演变,以及不同历史时期《论语》在中国哲学史中的地位变迁。
- 杨浩李佳纯王军苏祺
- 关键词:互文性论语儒家典籍
- 义项矩阵模型SMM简介
- 本文介绍了一个同时利用词语和义项来索引和检索文档的信息检索模型,称为'义项矩阵模型'SMM(Sense Matrix Model).利用词语和义项的关联提出了一种新的文档表示,即把文档表示成为一个term×sense矩阵...
- 孙斌吕学强苏祺
- 关键词:信息检索数据分析文本信息
- 文献传递
- 古籍数字化关键技术评述被引量:16
- 2021年
- 中国历史文化典籍是中华民族的宝贵财富.在数字环境下,实现古籍的数字化整理与利用,能够为数字人文研究、历史学研究及其他人文研究提供基础性资源,也是推动中华文明创造性转化与创新性发展的重要依托.古籍的数字化整理包括纸本资源的电子化,以及在电子化文本基础上的断句、标点、词语切分等基础性加工和深层知识提取.本文对现有古籍数字化整理的技术方法与平台进行梳理与评述,分析古籍数字化整理的挑战,探讨古籍数字化整理任务的未来发展方向.
- 苏祺胡韧奋诸雨辰严承希王军
- 关键词:古籍整理古籍数字化自然语言处理
- 中文文本聚类的特征单元比较
- 本文对字、词和字串等文本特征在中文文本聚类中的效果进行了比较实验.实验使用K-MEANS聚类方法,检验了字特征、字串特征、词特征以及它们的组合方式的聚类效果.
- 王洪俊俞士汶苏祺施水才肖诗斌
- 关键词:中文文本聚类
- 文献传递
- 面向观点挖掘的产品评价特征词识别
- 在观点挖掘的研究中,目前的研究方法大部分集中在识别不同语言单元中所表述观点评价的整体褒贬性。然而在很多情况下,仅简单地识别评价语料对所评价对象(如特定类产品)的褒贬并不能完全解决问题。有必要区分评论语料中针对所评价对象不...
- 苏祺孙斌
- 文献传递
- 融合实体信息的古汉语关系分类研究被引量:4
- 2024年
- 【目的】将实体信息与预训练语言模型结合应用到古汉语关系分类任务中,构建古汉语关系分类模型。【方法】首先,在预训练模型输入层中使用特殊标记标出实体对的位置,同时在原关系句之后拼接实体类型描述句;其次,在预练语言模型的输出中进一步提取实体语义信息;然后,通过CNN将每个字符相对于首尾实体的位置信息融入模型中;最后,将句表示、实体语义表示以及CNN输出拼接经过分类器得到关系标签。【结果】相较于仅使用预训练语言模型,本文模型在Macro F1指标上平均有3.5个百分点的提升。【局限】通过分析混淆矩阵发现本文模型在有相同实体类型组合的关系上容易出现预测错误。【结论】在预训练语言模型中结合实体信息能够提高古汉语关系分类的效果,且实验结果证明本文融合实体信息的方法是有效的。
- 唐雪梅苏祺王军
- 关键词:古汉语关系抽取