胡婷婷 作品数:4 被引量:16 H指数:3 供职机构: 南京师范大学教育科学学院 更多>> 发文基金: 国家社会科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 文化科学 更多>>
基于注意力机制的LSTM语音情感主要特征选择 被引量:9 2019年 传统的语音情感识别方式采用的语音特征具有数据量大且无关特征多的特点,因此选择出与情感相关的语音特征具有重要意义。通过提出将注意力机制结合长短时记忆网络(LongShortTermMemory,LSTM),根据注意力权重进行特征选择,在两个数据集上进行了实验。结果发现:(1)基于注意力机制的LSTM相比于单独的LSTM模型,识别率提高了5.4%,可见此算法有效提高了模型的识别效果;(2)注意力机制是一种有效的特征选择方法。采用注意力机制选择出了具有实际物理意义的声学特征子集,此特征集相比于原有公用特征集在降低了维数的情况下,提高了识别准确率;(3)根据选择结果对声学特征进行分析,发现有声片段长度特征、无声片段长度特征、梅尔倒谱系数(Mel-FrequencyCepstralCoefficient,MFCC)、F0基频等特征与情感识别具有较大相关性。 胡婷婷 冯亚琴 沈凌洁 王蔚关键词:语音情感识别 利用语音与文本特征融合改善语音情感识别 被引量:3 2019年 情感识别在人机交互中具有重要意义,为了提高情感识别准确率,将语音与文本特征融合。语音特征采用了声学特征和韵律特征,文本特征采用了基于情感词典的词袋特征(Bag-of-words,BoW)和N-gram模型。将语音与文本特征分别进行特征层融合与决策层融合,比较它们在IEMOCAP四类情感识别的效果。实验表明,语音与文本特征融合比单一特征在情感识别中表现更好;决策层融合比在特征层融合识别效果好。且基于卷积神经网络(Convolutional neural network,CNN)分类器,语音与文本特征在决策层融合中不加权平均召回率(Unweighted average recall,UAR)达到了68.98%,超过了此前在IEMOCAP数据集上的最好结果。 冯亚琴 沈凌洁 胡婷婷 王蔚关键词:情感识别 声学特征 韵律特征 文本特征 语音与文本情感识别中愤怒与开心误判分析 被引量:5 2018年 在语音情感识别的研究中发现,愤怒与开心之间通过语音信息较难区分,文中将结合文本信息对这两种情感进行区分,以提高其识别率。使用IEMOCAP与SAVEE数据集中语音数据提取声学特征,分别使用卷积神经网络与支持向量机训练分类器模型,对中性、愤怒、开心、悲伤四类情感进行识别,对情感之间误判情况以及识别准确率进行分析,验证了语音通道信息对于愤怒与开心容易产生误判的结论。为解决此问题,加入文本信息,训练文本识别模型,有效解决了愤怒与开心的误判情况。同时发现两通道信息对情感识别的不同影响,在声音中包含更多利于识别愤怒和悲伤情感的信息;在文本中包含更多利于识别中性与开心情感的信息。声音情感识别中,愤怒/开心之间易误判,愤怒/悲伤之间易区分。文本情感识别中,愤怒/开心之间易区分,愤怒/悲伤之间易误判。声学与文本特征融合后,情感识别准确率相比单一通道明显提高,两通道信息对于情感识别具有互补作用。 胡婷婷 沈凌洁 冯亚琴 王蔚关键词:情感识别 声学特征 文本特征 混淆矩阵