温正棋
- 作品数:36 被引量:34H指数:3
- 供职机构:中国科学院自动化研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中国科学院战略性先导科技专项更多>>
- 相关领域:电子电信自动化与计算机技术语言文字文化科学更多>>
- 一种波形拼接语音合成的选音方法
- 本发明公开了一种波形拼接语音合成的选音方法,该方法包括以下步骤:基于原始音频进行基于隐马尔可夫的模型训练,得到声学模型集及对应的特征决策树;输入若干训练文本,基于特征决策树搜索得到相关声学模型,进而得到对应的目标语音和目...
- 陶建华张冉温正棋
- 基于逆滤波的谐波噪声激励模型
- 温正棋陶建华
- 关键词:语音合成逆滤波
- 深浅层特征及模型融合的说话人识别被引量:13
- 2018年
- 为了进一步提高说话人识别系统的性能,提出基于深、浅层特征融合及基于I-Vector的模型融合的说话人识别。基于深、浅层特征融合的方法充分考虑不同层级特征之间的互补性,通过深、浅层特征的融合,更加全面地描述说话人信息;基于I-Vector模型融合的方法融合不同说话人识别系统提取的I-Vector特征后进行距离计算,在系统的整体结构上综合了不同说话人识别系统的优势。通过利用CASIA南北方言语料库进行测试,以等错误率为衡量指标,相比基线系统,基于深、浅层特征融合的说话人识别其等错误率相对下降了54.8%,基于I-Vector的模型融合的方法其等错误率相对下降了69.5%。实验结果表明,深、浅层特征及模型融合的方法是有效的。
- 仲伟峰方祥范存航温正棋陶建华
- 关键词:说话人统计量语音识别系统
- 基于口音瓶颈特征的声学模型自适应方法
- 本发明属于语音识别技术领域,具体涉及一种基于口音瓶颈特征的声学模型自适应方法。为了能够实现针对不同口音的用户,进行个性化定制声学模型,本发明提供的方法包括下列步骤:S1基于第一深度神经网络,以多个口音音频数据的声纹拼接特...
- 陶建华易江燕温正棋倪浩
- 文献传递
- 一种基于递归神经网络的离散情感识别方法
- 本发明提出的一种基于递归神经网络的离散情感识别方法,步骤为:1、对视频中的图像信号进行人脸检测及跟踪,得到人脸区域后,提取人脸关键点作为人脸的形变特征;将人脸区域裁剪并归一化到统一大小,提取人脸的外观特征;2、对视频中的...
- 陶建华 巢林林杨明浩李雅温正棋
- 文献传递
- 多发音人语音合成方法、系统及装置
- 本发明涉及一种多发音人语音合成方法及系统,所述合成方法包括:从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;基于文本分析方法,从待测文本中提取文本特征;将所述文本特征与句子级别字典及音素级别字...
- 陶建华傅睿博温正棋
- 文献传递
- 基于自适应训练的疑问句语音合成
- 针对目前合成语音缺乏表现力的现状,本文提出了一种基于自适应训练的疑问句语音合成方法。采用基于统计参数语音合成技术,用大规模的陈述句语料训练初始声学模型,在此基础上,采用小规模的疑问句语料进行自适应训练,得到疑问句的声学模...
- 方硕温正棋王洋陶建华
- 关键词:自适应语音合成
- 文献传递
- 基于LSTM循环神经网络的基频提取模型及训练方法
- 本发明公开了基于LSTM(长短时记忆)循环神经网络的基频提取模型及训练方法。所述训练方法包括下述步骤:从语音波形信号中抽取声学特征;采用多任务学习的双向长短时记忆循环神经网络,通过所述声学特征,训练生成基于多任务学习的双...
- 陶建华郑艺斌温正棋刘斌
- 文献传递
- 解读“智能交互”的核心技术被引量:1
- 2018年
- 智能交互是人与计算机之间以一定的交互方式,为完成某种任务目标的信息交换过程。整个交互系统从接收用户的输入信息开始,包括语音、表情、手势等多模态信息,通过对这些信息进行理解并产生输出结果,最后以文字或语音等形式展现出来。语音作为人与计算机之间的一种重要交互方式,与对话系统构成了人机交互的新闭环。
- 温正棋温正棋刘斌
- 关键词:声学模型回声消除二阶统计量人机对话系统声码器智能交互
- 基于静音时长和文本特征融合的韵律边界自动标注
- 韵律边界标注对于语料库建设和语音合成有着至关重要的作用,而自动韵律标注可以克服人工标注中的不一致、耗时的缺点。仿照人工标注流程,本文运用循环神经网络分别对文本和音频两个通道训练子模型,对子模型的输出采用模型融合,从而获得...
- 傅睿博李雅温正棋陶建华
- 关键词:语料库构建语音合成
- 文献传递