公共文化服务平台

杜俊: 作品数：27 被引量：24H指数：3; 供职机构：中国科学技术大学更多>>; 发文基金：国家自然科学基金国家高技术研究发展计划更多>>; 相关领域：自动化与计算机技术电子电信语言文字文化科学更多>>

合作作者

一种翻译数据标注辅助系统、方法、设备及存储介质: 本发明公开了一种翻译数据标注辅助系统、方法、设备及存储介质，系统包括：机器翻译候选结果挑选模块，能对待翻译句对多机器翻译出多个候选翻译结果，经近似检索得出最接近的标注结果，经自对比得出最佳候选译文；译员翻译能力自适应任务...; 张为泰叶忠义刘俊华杜俊

基于双高斯GMM的特征参数规整及其在语音识别中的应用被引量：9: 2006年; 对特征参数概率分布的实验分析表明,在有噪声影响的情况下,特征参数通常呈现双峰分布．据此,本文提出了一种新的,基于双高斯的高斯混合模型(Gaussian mixture model,GMM)的特征参数归一化方法,以提高语音识别系统的鲁棒性．该方法采用更为细致的双高斯模型来表达特征参数的累积分布函数(CDF),并依据估计得到的CDF进行参数变换将训练和识别时的特征参数的分布都规整为标准高斯分布,从而提高识别正确率．在Aurora 2和Aurora 3数据库上的实验结果表明,本文提出的方法的性能明显好于传统的倒谱均值规整(Cepstral mean normalization,CMN)和倒谱均值方差规整(Cepstral mean and variance normalization,CMVN)方法,而与非参数化方法一直方图均衡特征规整方法的性能基本相当．; 刘波戴礼荣王仁华杜俊李锦宇; 关键词：语音识别前端噪声鲁棒性直方图均衡

用于在线手写公式合成的编解码网络被引量：2: 2023年; 目的在线公式识别是一种将在线输入手写轨迹点序列转换为公式文本的任务,其广泛应用在手机、平板等便携式设备上。众所周知,训练数据对于神经网络十分重要,但获取有标注的在线公式数据所需要的成本十分昂贵,在训练数据不足的情况下,深度神经网络在该任务上的泛化性和鲁棒性会受到影响。为此,提出了一个基于编码—解码模型的在线数据生成模型。方法该模型从给定的公式文本生成对应的在线轨迹点序列,从而灵活地扩充训练数据规模。生成模型在编码器端设计了结合树形表示的文本特征提取模块,并且引入了基于位置的注意力算法,使模型实现了输入文本序列与输出轨迹序列间的对齐。同时,解码器端融入了不同手写人风格特征,使模型可以生成多种手写人风格的样本。结果实验中,首先,将本文生成方法在不同类型输入文本和不同手写人风格上的结果可视化,并展示了模型在多数情况下的有效性。其次,生成模型合成的额外数据可作为训练集的增广,该数据被用于训练Transformer-TAP(track,attend,and parse)、TAP和DenseTAP-TD(DenseNet TAP with tree decoder)模型,并分析了3种模型在使用增广数据前后的性能变化。结果表明,引入增广数据分进行训练后,3个模型的绝对识别率分别提升了0.98%、1.55%和1.06%;相对识别率分别提升了9.9%、12.37%和9.81%。结论本文提出的在线生成模型可以更加灵活地实现对原有数据集的增广,并有效提升了在线识别模型的泛化性能。; 杨晨杜俊薛莫白张建树; 关键词：端到端

结合部首字形和层级结构的手写汉字纠错方法被引量：1: 2023年; 目的手写汉字纠错(handwritten Chinese character error correction,HCCEC)任务具有两重性,即判断汉字正确性和对错字进行纠正,该任务在教育场景下应用广泛,可以帮助学生学习汉字、纠正书写错误。由于手写汉字具有复杂的空间结构、多样的书写风格以及巨大的数量,且错字与正确字之间具有高度的相似性,因此,手写汉字纠错的关键是如何精确地建模一个汉字。为此,提出一种层级部首网络(hierarchical radical network,HRN)。方法从部首字形的角度出发,挖掘部首形状结构上的相似性,通过注意力模块捕获包含部首信息的细粒度图像特征,增大相似字之间的区分性。另外,结合汉字本身的层级结构特性,采用基于概率解码的思路,对部首的层级位置进行建模。结果在手写汉字数据集上进行实验,与现有方案相比,HRN在正确字测试集与错字测试集上,精确率分别提升了0.5%和9.8%,修正率在错字测试集上提升了15.3%。此外,通过注意力机制的可视化分析,验证了HRN可以捕捉包含部首信息的细粒度图像特征。部首表征之间的欧氏距离证明了HRN学习到的部首表征向量中包含了部首的字形结构信息。结论本文提出的HRN能够更好地对相似部首进行区分,进而精确地区分正确字与错字,具有很强的鲁棒性和泛化性。; 李云青杜俊胡鹏飞张建树; 关键词：汉字识别

语音增强方法: 本发明公开了一种语音增强方法，包括：提取各语音帧的声学特征；利用干净语音的与噪声语音的样本对渐进式双输出神经网络模型进行训练，利用训练后的渐进式双输出神经网络模型估计各语音帧的理想软掩蔽，并进行声学特征的增强处理；如果应...; 杜俊高天屠彦辉王立众杨磊徐学淼

多语种语义理解资源库的快速构建方法、设备及存储介质: 本发明公开了一种多语种语义理解资源库的快速构建方法、设备及存储介质，方法包括：步骤S1，多语种文本翻译：获取已有的中文数据库以及真实用户数据中的带有实体词标注的中文文本数据为原始数据；通过多语种翻译引擎进行翻译，得到带有...; 刘权孙骏孙庆华刘聪杜俊

渐进学习语音增强方法在语音识别中的应用被引量：5: 2018年; 在语音识别实际应用中,带噪语音信噪比的复杂性会造成识别难度增大,导致语音识别系统性能下降.本文将渐进学习语音增强方法应用于语音识别,以取代传统语音识别中使用的基于深层神经网络的语音增强方法.本文使用渐进学习语音增强方法在识别模型前端进行降噪预处理,然后再作识别,以更好地提升语音信噪比,进而提高系统性能.首先使用渐进学习方法训练一个深层神经网络.然后,将语音经过这个渐进学习深层神经网络作增强.最后,将渐进学习深层神经网络增强后的语音经过语音识别模型作识别.通过实验验证,本文使用的渐进学习语音增强及识别方法,相对于传统语音增强及识别方法,在识别准确率上有10.28%的相对提升.; 文仕学孙磊杜俊; 关键词：语音增强语音识别

基于视听信息融合的多类别声音事件定位与检测方法: 本发明公开了一种基于视听信息融合的多类别声音事件定位与检测方法，方法包括：步骤1，利用增强数据得到的音频训练数据集对单音频教师模型预训练；步骤2，利用教师‑学生跨模态学习结合数据增强得到的多模态视听数据对音视频学生模型进...; 姜娅杜俊王青赵江江任玉玲李青龙柳瑞波代晓康

音视频唤醒方法、系统、设备及存储介质: 本发明公开了一种音视频唤醒方法、系统、设备及存储介质，引入视频模态来改善和提高唤醒系统性能，能够适应真实复杂场景下的唤醒任务，提高唤醒率，提升交互体验；而且，也针对音视频多模态唤醒数据量相对较少的特点，提出使用基于跨模态...; 周恒顺杜俊

一种音视频语音增强处理方法及模型: 本申请公开了一种音视频语音增强处理方法及模型，方法包括：从带噪语音中提取出帧级别的音频嵌入数据；从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据；将音频嵌入数据和视频嵌入数据融合处理为多模态嵌入数据；基于多模态嵌入数...; 陈航杜俊戴礼荣; 文献传递

杜俊

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

杜俊

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈