国家自然科学基金(60875014) 作品数:10 被引量:39 H指数:4 相关作者: 颜永红 索宏彬 张建平 杨琳 张翔 更多>> 相关机构: 中国科学院 内蒙古师范大学 北京航空航天大学 更多>> 发文基金: 国家自然科学基金 国家科技支撑计划 北京市自然科学基金 更多>> 相关领域: 电子电信 自动化与计算机技术 医药卫生 更多>>
Objective evaluation of cleft palate speech based on analyzing plosive consonants 2013年 An objective method, using a multi-band analysis technique, was proposed for analyzing plosive consonants in cleft palate speech. At first, the speech signal is decomposed in frequency domain using an auditory filter-bank. Then, the sample-based features, namely cumulative energy and its increment speed, in each band were computed. Finally, using principle component analysis, these features were fused into one combined feature vector for assessment. Since the algorithm is based on perceptual properties of human auditory ear using non-uniform and multi-band analysis, the improvements of the consistence between the proposed approach and subjective evaluation are obtained. HU Qi ZHAO Qingwei MA Lian YAN Yonghong多特征融合的英语口语考试自动评分系统的研究 被引量:11 2012年 该文主要针对大规模英语口语考试自动评分系统的问答题型,采用多特征融合的方法进行评分。以语音识别文本作为研究对象,提取了3类特征进行评分。这3类特征分别是:相似度特征、句法特征和语音特征。总共9个特征从不同方面描述了考生回答与专家评分之间的关系。在相似度特征中,改进了Manhattan距离作为相似度。同时提出了基于编辑距离的关键词覆盖率的特征,充分考虑了识别文本中存在的单词变异现象,为给考生一个客观公平的分数提供依据。所有提取的特征利用多元线性回归模型进行融合,得到机器评分。实验结果表明,提取的特征对机器评分是十分有效的,并且在以考生为单位的系统评分性能达到了专家评分性能的98.4%。 李艳玲 颜永红关键词:自动语音识别 自动评分 句法树 腭裂康复手术客观评价的研究--应用塞音检测的方法 2014年 针对腭裂患者易出现塞音弱化或消失的现象,提出了一种基于塞音段爆破能量检测的腭裂康复手术客观评价方法。该方法采用类听觉的滤波器组作为处理前端,并对处理后得到的信号在其各子带内分别计算塞音除阻过程中的能量变化率。对腭裂组和术后对照组的平均子带能量变化率进行了比对,结果表明腭裂组在高频段(子带中心频率从209.8 Hz至8000 Hz)具有较小的除阻能量变化率。对不送气清塞音/d/、/b/进行了实验,Logistic回归表明提出的方法与主观判听一致性在音节/di/和/bu/上分别达到88.9%和90.27%。 胡琦 赵庆卫 马莲 颜永红关键词:不送气 腭裂患者 腭裂语音 音段 腭咽闭合不全 最小方差无失真响应感知倒谱系数在说话人识别中的应用 被引量:4 2012年 研究最小方差无失真响应感知倒谱系数在说话人识别中的应用。提取最小方差无失真响应感知倒谱系数,对其进行高斯混合模型建模并采用联合因子分析的方法来拟合高斯混合模型中的说话人和信道差异,在美国国家标准技术研究院2008年说话人识别评测核心测试集上分别对最小方差无失真响应感知倒谱系数和传统的Mel频率倒谱系数进行测试。结果显示,两种不同特征的系统性能相当,采用线性融合方法后,在不同测试集上的等错误率相对下降了7.6%~30.5%,最小检测错误代价相对下降了3.2%~21.2%。实验表明,最小方差无失真响应感知倒谱系数能有效应用于说话人识别中,且与传统的Mel频率倒谱系数存在一定程度的互补性。 梁春燕 张翔 杨琳 张建平 颜永红关键词:MEL频率倒谱系数 最小方差无失真响应 说话人识别 感知 高斯混合模型 基于HMM-BIC的说话人日志系统 该文提出一种改进的基于隐Markov模型(HMM)和Bayes信息准则(BIC)的说话人日志系统。它用来检测会议语音数据中"谁在什么时候说话"。在对说话人模型进行Gauss混合模型(GMM)建模的时候,考虑到用来建模的数... 周瑜 金怡珠 李桂莲关键词:最大后验概率 隐MARKOV模型 文献传递 一种基于共面圆的摄像机自标定算法 被引量:3 2009年 提出了一种基于自由移动平面圆靶标的摄像机标定算法,由摄像机拍摄自由移动平面圆靶标的多幅图像,利用欧氏空间中平面模板上的不变量作为约束,采用非线性优化技术估计摄像机的内部参数。该方法操作简单,具有较高的精度和较好的稳定性,且抗遮挡,无需进行特征匹配,适用于在线标定和自标定。仿真实验和真实图像实验结果均表明,该算法准确、可靠。 赵征 张广军 魏振忠关键词:自标定 联合因子分析和稀疏表示在稳健性说话人确认中的应用 被引量:7 2012年 在说话人确认的任务中,为了解决信道失配问题,提高系统性能,引入了联合因子分析和稀疏表示算法。首先利用联合因子分析算法去除信道干扰,得到与信道无关的说话人因子,然后在稀疏表示算法中利用说话人因子构建过完备字典,求解稀疏最优化问题计算说话人得分。由于此方法有机结合了联合因子分析算法的信道鲁棒性和稀疏表示的鉴别性,使用此算法构建的系统在NIST SRE 2008电话训练、电话测试数据集上性能表现良好,相对于联合因子分析-支持向量机系统在性能上有竞争性,在原理上有互异性,系统融合更带来了最小检测代价指标上4.91%的性能提升。实验表明使用联合因子分析与稀疏表示进行说话人确认是可行的。 杨海 张翔 梁春燕 索宏彬 颜永红关键词:稳健性 说话人确认 信道干扰 支持向量机 语言声学的最新应用 被引量:4 2010年 本文对语言声学研究的最新进展进行综述。首先介绍了人类的言语的产生和感知以及声学分析方面的近期发展,接着重点阐述了计算机处理人类语音(包括语音识别和合成,发音评估以及演唱评价)的最新研究、成果。同时提及了这些研究成果的相关应用。最后是总结与展望。 颜永红关键词:语言声学 语音识别 声学分析 长时语音特征在说话人识别技术上的应用 被引量:8 2010年 本文除介绍常用的说话人识别技术外,主要论述了一种基于长时时频特征的说话人识别方法,对输入的语音首先进行VAD处理,得到干净的语音后,对其提取基本时频特征。在每一语音单元内把基频、共振峰、谐波等时频特征的轨迹用Legendre多项式拟合的方法提取出主要的拟合参数,再利用HLDA的技术进行特征降维,用高斯混合模型的均值超向量表示每句话音时频特征的统计信息。在NIST06说话人1side-1side说话人测试集中,取得了18.7%的等错率,与传统的基于MFCC特征的说话人系统进行融合,等错率从4.9%下降到了4.6%,获得了6%的相对等错率下降。 张建平 李明 索宏彬 杨琳 付强 颜永红关键词:语音特征 识别技术 说话人 LEGENDRE 高斯混合模型 多项式拟合 混合双语语音识别的研究 被引量:2 2010年 随着现代社会信息的全球化,双语以及多语混合的语言现象日趋普遍,随之而产生的双语或多语语音识别也成为语音识别研究领域的热门课题。在双语混合语音识别中,主要面临的问题有两个:一是在保证双语识别率的前提下控制系统的复杂度;二是有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法,并将该方法与传统的基于声学似然度准则的聚类方法进行比较;针对双语语音中非母语语音识别性能较低的问题,提出一种新型的双语模型修正算法用于提高非母语语音的识别性能。实验结果表明,通过上述方法建立起来的中英双语语音识别系统在有效控制模型规模的同时,实现了同时对两种语言的识别,且在单语言语音和混合语言语音上的识别性能也能得到有效保证。 张晴晴 潘接林 颜永红关键词:语音识别系统 混合语言 双语 聚类方法 聚类算法 控制系统