王晶晶
- 作品数:10 被引量:37H指数:3
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金中国博士后科学基金江苏高校优势学科建设工程资助项目更多>>
- 相关领域:自动化与计算机技术文化科学理学更多>>
- 中文微博用户性别分类方法研究被引量:20
- 2014年
- 该文旨在研究中文微博用户的性别分类问题,即根据微博提供的中文文本信息对注册用户的性别进行识别。虽然基于微博的性别分类已经有一定研究,但是针对中文的性别分类工作还很缺乏。该文首先提出分别利用用户名和微博文本构建两个分类器对用户的性别类型进行判别,并对不同的特征(例如,字特征、词特征等)进行了研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,从而达到采用这两种文本分类信息同时对用户性别进行性别判断。实验结果表明该文的方法可以达到较高的识别准确率,并且分类器融合的方法明显优于仅利用用户名或者微博文本的分类方法。
- 王晶晶李寿山黄磊
- 关键词:性别分类文本分类社交网络
- 基于认证用户信息的微博用户类型识别方法被引量:3
- 2015年
- 微博用户可以分为个人用户和非个人用户两种类型。在微博中对这两种用户类型进行自动分类是智能广告、用户个性分析等应用的一项基本任务。针对该任务,提出了一种基于机器学习的自动分类方法。该方法的特色在于,不需要人工标注样本,而是利用微博中认证用户类型的语料作为训练样本构建分类器,用于对非认证用户类型进行分类。具体实现中,将用户名和用户发表的微博文本作为表示用户的样本,使用基于最大熵算法进行用户分类。实验表明这种利用认证用户对非认证用户进行类型分类的方法能够获得较好的效果。
- 黄磊李寿山王晶晶
- 关键词:自然语言处理用户分类
- 基于问题与答案联合表示学习的半监督问题分类方法被引量:7
- 2017年
- 问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。该文提出了一种基于问题和答案联合表示学习的问题分类方法。该方法的特色在于利用问题及其答案作为共同的上下文环境,学习词的分布式表示,从而充分利用未标注样本中问题和答案隐含的分类信息。具体而言,首先,我们引入神经网络语言模型,利用问题与答案联合学习词向量表示,增加问题词向量的信息量;其次,加入大量未标注的问题与答案样本参与词向量学习,进一步增强问题词向量表示能力;最后,将已标注的问题样本以词向量形式表示作为训练样本,采用卷积神经网络建立问题分类模型。实验结果表明,该文提出的基于半监督问题分类方法能够充分利用词向量表示和大量未标注样本来提升性能,明显优于其他基准半监督分类方法。
- 张栋李寿山王晶晶
- 混合分类/回归模型的用户年龄识别方法
- 2017年
- 年龄分类方法和年龄回归方法是年龄识别任务的主要方法.这两种方法各自具有其自身的优越性.例如:年龄分类方法能够灵活利用机器学习中的区分式模型,而年龄回归方法的主要优势是能够捕捉不同年龄之间的联系.为了能同时利用分类方法和回归方法的优势,本文提出了一种混合分类/回归模型(混合模型)用于用户年龄识别.具体而言,我们首先基于长短时记忆(long short-term memory,LSTM)模型分别构建年龄分类模型和回归模型用于年龄识别;在此基础上,将年龄分类结果与年龄回归结果进行线性融合作为年龄识别的最终结果.实验结果表明本文提出的混合模型能够有效提升年龄识别任务的性能.
- 陈敬李寿山王晶晶周国栋
- 关键词:混合模型自然语言处理
- 《自然语言处理》课程教学分析与实践被引量:1
- 2021年
- 《自然语言处理》课程是计算机及人工智能专业的一门重要课程,其研究内容是计算机科学领域与人工智能领域中的一个重要方向。针对《自然语言处理》课程理论性较强、知识体系庞大的特点,该文基于现有的实践教学方法提出了新的教学思路,即“认知驱动+编程巩固”教学方法。具体而言,该文首先介绍了《自然语言处理》课程的教学内容,其次分析了当前实践教学体系中存在的问题,最后详细阐述了新的“认知驱动+编程巩固”教学方法。
- 王晶晶高晓雅
- 关键词:自然语言处理实践教学人工智能
- 基于层次化动态路由机制的多模态抑郁症检测
- 2022年
- 作为一个交叉领域的研究任务,多模态抑郁症检测在自然语言处理、计算机视觉、心理健康分析等研究领域吸引了越来越多研究人员的关注。目前存在的研究工作主要致力于利用用户产生的社交网络数据进行抑郁症检测。然而,由于社交网络数据量通常较大,已有的研究方法存在捕捉长距离依存信息(即全局信息)不足的缺陷。因此,如何获取用户的全局信息来帮助检测抑郁症成为一个亟需解决的问题。另外,考虑到社交媒体数据不仅包含文本信息,还包含图片等信息,如何同时融合多个模态的全局信息来帮助检测抑郁症成为另一个亟需解决的问题。为了解决上述困境,该文提出了一种基于层次化动态路由机制的多模态抑郁症检测方法。通过层次化的结构来获取用户的全局信息,并且通过基于动态路由机制的融合方法,来动态地根据任务调整多模态融合特征来帮助检测抑郁症。实验结果表明,该文方法能有效地捕捉用户全局信息,并能进一步融合多模态信息,从而显著提高抑郁症检测任务的性能。
- 安明慧王晶晶刘启元李林钦张大鑫李寿山
- 关键词:多模态融合动态路由
- 基于属性感知辅助学习的细粒度性格推理
- 2021年
- 针对存在的性格类别数量大的特点,提出了一种性格属性感知的辅助学习方法。首先对细粒度性格类别归纳标注,将其映射到多个粗粒度的性格属性。其次,将细粒度性格推理作为主任务,细粒度性格与粗粒度属性之间的映射作为辅助任务。最后,通过辅助学习机制联合学习两个任务。实验结果表明,提出的方法在细粒度性格推理任务上推理性能显著优于其他基准方法。
- 高晓雅王晶晶李寿山
- 基于问题与答案共同表示学习的半监督问题分类方法
- 问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。本文提出了一种基于问题和答案共同表示学习的问题分类方法。该方法的特色在于,利用问题及其答案作为共同的上下文环境,学习词的分布式表示,从而充分利用未...
- 张栋李寿山王晶晶
- 基于多通道BERT的跨语言属性级情感分类方法被引量:3
- 2022年
- 属性级情感分类是情感分析领域中一个细粒度的情感分类任务,旨在判断文本中针对某个属性的情感极性。现有的属性级情感分类方法大多是使用同一种语言的标注文本进行模型的训练与测试,而现实中很多语言的标注文本规模并不足以训练一个高性能的模型,因此跨语言属性级情感分类是一个亟待解决的问题。跨语言属性级情感分类是指利用源语言文本的语义和情感信息对目标语言文本中包含的属性级情感进行挖掘和分类,相对于单语言的属性级情感分类任务而言,它具有更高的挑战性。该文提出了一个基于多通道BERT的跨语言属性级情感分类方法(Multi-BERT),该方法使用不同的BERT模型分别学习源语言文本和目标语言文本的语义特征,适应源语言和目标语言的语法特点,然后将多个BERT模型学习到的文本表示彼此交互,可以从中挖掘出更充分的属性级情感信息,提高跨语言属性级情感分类的性能。
- 陈潇王晶晶李寿山韦思义张啸宇陈强
- 关键词:多通道跨语言
- 基于多层LSTM融合的多模态情绪识别被引量:3
- 2022年
- 情绪分析一直是自然语言处理领域的研究热点,而多模态情绪分析是当前该领域的一个挑战。已有研究在上下文信息和不同模态时间序列信息交互方面存在不足,该文提出了一个新颖的多层LSTM融合模型(Multi-LSTMs Fusion Model, MLFN),通过分层LSTM分别设置单模态模内特征提取层、双模态和三模态模间融合层进行文本、语音和图像三个模态之间的深度融合,在考虑模态内部信息特征的同时深度捕获模态之间的交互信息。实验结果表明,基于多层LSTM多模态融合网路能够较好地融合多模态信息,大幅度提升多模态情绪识别的准确率。
- 张亚伟吴良庆王晶晶李寿山
- 关键词:多模态情绪分析