您的位置: 专家智库 > >

国家自然科学基金(90920302)

作品数:21 被引量:72H指数:6
相关作者:颜永红刘加许春冬李军锋索宏彬更多>>
相关机构:中国科学院清华大学北京理工大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划国家科技支撑计划更多>>
相关领域:电子电信自动化与计算机技术理学一般工业技术更多>>

文献类型

  • 19篇期刊文章
  • 6篇会议论文

领域

  • 20篇电子电信
  • 2篇自动化与计算...
  • 2篇语言文字
  • 1篇交通运输工程
  • 1篇医药卫生
  • 1篇一般工业技术
  • 1篇理学

主题

  • 11篇语音
  • 6篇语音识别
  • 3篇说话人识别
  • 3篇混合模型
  • 3篇高斯
  • 3篇高斯混合
  • 3篇高斯混合模型
  • 2篇信号
  • 2篇序贯
  • 2篇语音信号
  • 2篇语音增强
  • 2篇韵母
  • 2篇噪声
  • 2篇感知
  • 1篇倒谱
  • 1篇倒谱系数
  • 1篇多特征融合
  • 1篇多项式
  • 1篇多项式拟合
  • 1篇信道

机构

  • 12篇中国科学院
  • 8篇清华大学
  • 4篇北京理工大学
  • 3篇江西理工大学
  • 1篇河北师范大学
  • 1篇北京大学
  • 1篇内蒙古师范大...
  • 1篇上海海洋大学
  • 1篇中国科学院电...
  • 1篇国家互联网应...

作者

  • 11篇颜永红
  • 5篇刘加
  • 3篇李军锋
  • 3篇许春冬
  • 3篇贾珈
  • 2篇夏日升
  • 2篇杨琳
  • 2篇张建平
  • 2篇梁春燕
  • 2篇索宏彬
  • 2篇蔡莲红
  • 2篇付强
  • 2篇张翔
  • 2篇应冬文
  • 2篇钱彦旻
  • 2篇史永哲
  • 1篇张晴晴
  • 1篇陈梦喆
  • 1篇吴超
  • 1篇葛凤培

传媒

  • 6篇声学学报
  • 3篇Chines...
  • 2篇自动化学报
  • 2篇清华大学学报...
  • 1篇电子与信息学...
  • 1篇电视技术
  • 1篇北京大学学报...
  • 1篇计算机应用
  • 1篇计算机应用研...
  • 1篇Journa...

年份

  • 1篇2017
  • 3篇2014
  • 7篇2013
  • 6篇2012
  • 3篇2011
  • 5篇2010
21 条 记 录,以下是 1-10
排序方式:
多特征融合的英语口语考试自动评分系统的研究被引量:10
2012年
该文主要针对大规模英语口语考试自动评分系统的问答题型,采用多特征融合的方法进行评分。以语音识别文本作为研究对象,提取了3类特征进行评分。这3类特征分别是:相似度特征、句法特征和语音特征。总共9个特征从不同方面描述了考生回答与专家评分之间的关系。在相似度特征中,改进了Manhattan距离作为相似度。同时提出了基于编辑距离的关键词覆盖率的特征,充分考虑了识别文本中存在的单词变异现象,为给考生一个客观公平的分数提供依据。所有提取的特征利用多元线性回归模型进行融合,得到机器评分。实验结果表明,提取的特征对机器评分是十分有效的,并且在以考生为单位的系统评分性能达到了专家评分性能的98.4%。
李艳玲颜永红
关键词:自动语音识别自动评分句法树
基于扩展N元文法模型的快速语言模型预测算法被引量:6
2012年
针对基于动态解码网络的大词汇量连续语音识别器,本文提出了一种采用扩展N元文法模型进行快速语言模型(Language model,LM)预测的方法.扩展N元文法模型统一了语言模型和语言模型预测树的表示与分数计算方法,从而大大简化了解码器的实现,极大地提升了语言模型预测的速度,使得高阶语言模型预测成为可能.扩展N元文法模型在解码之前离线生成,生成过程利用了N元文法的稀疏性加速计算过程,并采用了词尾节点前推和分数量化的方法压缩模型存储空间大小.实验表明,相比于采用动态规划在解码过程中实时计算语言模型预测分数的传统方法,本文提出的方法在相同的字错误率下使得整个识别系统识别速率提升了5~9倍,并且采用高阶语言模型预测可获得比低阶预测更优的解码速度与精度.
单煜翔陈谐史永哲刘加
关键词:语音识别解码
语言声学的最新应用被引量:4
2010年
本文对语言声学研究的最新进展进行综述。首先介绍了人类的言语的产生和感知以及声学分析方面的近期发展,接着重点阐述了计算机处理人类语音(包括语音识别和合成,发音评估以及演唱评价)的最新研究、成果。同时提及了这些研究成果的相关应用。最后是总结与展望。
颜永红
关键词:语言声学语音识别声学分析
长时语音特征在说话人识别技术上的应用被引量:8
2010年
本文除介绍常用的说话人识别技术外,主要论述了一种基于长时时频特征的说话人识别方法,对输入的语音首先进行VAD处理,得到干净的语音后,对其提取基本时频特征。在每一语音单元内把基频、共振峰、谐波等时频特征的轨迹用Legendre多项式拟合的方法提取出主要的拟合参数,再利用HLDA的技术进行特征降维,用高斯混合模型的均值超向量表示每句话音时频特征的统计信息。在NIST06说话人1side-1side说话人测试集中,取得了18.7%的等错率,与传统的基于MFCC特征的说话人系统进行融合,等错率从4.9%下降到了4.6%,获得了6%的相对等错率下降。
张建平李明索宏彬杨琳付强颜永红
关键词:语音特征识别技术说话人LEGENDRE高斯混合模型多项式拟合
关键词识别中置信度评估方法的研究
关键词识别是语音识别的一个重要研究领域,它不仅比连续语音识别的灵活性更好,同时具有很高的应用价值。本文提出了基于多级词表的关键词识别系统,并从声学匹配和语义理解两个层面重点研究了在对语音识别结果进行确认时所采用的置信度评...
任竹贾珈蔡莲红
关键词:语音识别关键词识别置信度关键词检出
文献传递
两扬声器配置下的串声消除系统参数优化设置被引量:1
2014年
针对三维声音两扬声器重放中基本上独立研究逆滤波器的设计或扬声器的配置等因素对串声消除系统(CCS)性能的影响,提出了采用频域最小均方(LS)估计逼近方法,系统考察这些因素之间的关联以及对串声消除性能优化的作用,并通过折中考虑CCS的运算效率及系统性能获得了一组最优参数。实验采用通道分离度(CS)和性能误差(PE)两个指标对串声消除效果进行综合评价,仿真结果表明,该组最优参数能获得很好的串声消除效果。
许春冬李军锋裘嫄夏日升颜永红
关键词:三维声音逆滤波
Perceptual MVDR-based cepstral coefficients(PMCCs)for speaker recognition被引量:2
2012年
A feature extraction technique named perceptual MVDR-based cepstral coefficients (PMCCs) was introduced into speaker recognition. PMCCs are extracted and modeled using Gaussian Mixture Models (GMMs) for speaker recognition. In order to compensate for speaker and channel variability effects, joint factor analysis (JFA) is used. The experiments are carried out on the core conditions of NIST 2008 speaker recognition evaluation data. The experimental results show that the systems based on PMCCs can achieve comparable performance to those based on the conventional MFCCs. Besides, the fusion of the two kinds of systems can make significant performance improvement compared to the MFCCs system alone, reducing equal error rate (EER) by the factor between 7.6% and 30.5% as well as minimum detect cost function (minDCF) by the factor between 3.2% and 21.2% on different test sets. The results indicate that PMCCs can be effectively applied in speaker recognition and they are complementary with MFCCs to some extent.
LIANGChunyan ZHANG Xiang YANG Lin ZHANG Jianping YAN Yonghong
多领域系统融合在语音云系统中的应用
<正>0引言近年来,各大IT公司推出了自己的语音云系统,语音识别技术被大量运用到人们的日常生活中。通过云系统的强大计算能力,用户可利用语音通过移动终端打开手机应用,编辑短信、电子邮件,拨打电话和搜索网页等。各式各样的功能...
陈梦喆张晴晴颜永红
文献传递
利用二重打分方法的激活词语音识别
<正>0引言语音被认为是人与人之间交流最自然的方式之一,自动语音识别(ASR)也是一种重要的人机交互方式。几十年来,众多学者做了大量与语音识别相关的工作,其中的一个方向就是激活词语音识别,也可以称为激活词检测:向机器发出...
邢安昊黎塔颜永红
文献传递
汉语连续语音识别系统中三音子模型的优化被引量:4
2013年
为了更准确地估计状态聚类前有调三音子的模型参数,从而提高聚类后捆绑状态的精度及系统的识别性能,针对汉语连续语音识别中,有些有调三音子的训练样本数非常少,而其对应的无调三音子的训练样本数相对较多的情况,提出用其对应的无调三音子的模型参数进行初始化,并用最大后验概率准则训练模型。汉语大词汇量连续语音识别实验表明,该方法可以提高训练语料中稀疏三音子聚类前的模型精度,从而提高系统的识别性能。
齐耀辉潘复平葛凤培颜永红
关键词:三音子模型最大后验概率
共3页<123>
聚类工具0