陈欢
- 作品数:19 被引量:2H指数:1
- 供职机构:中国舰船研究设计中心更多>>
- 发文基金:国家教育部博士点基金更多>>
- 相关领域:电子电信交通运输工程文化科学自动化与计算机技术更多>>
- 结合光流算法与注意力机制的U-Net网络跨模态视听语音分离被引量:1
- 2023年
- 目前多数的视听分离模型,大多是基于视频特征和音频特征简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,该文针对此问题提出了新的模型。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合稠密光流(Farneback)算法和U-Net网络,提出跨模态融合的光流-视听语音分离(Flow-AVSS)模型。该模型通过Farneback算法和轻量级网络ShuffleNet v2分别提取运动特征和唇部特征,然后将运动特征与唇部特征进行仿射变换,经过时间卷积模块(TCN)得到视觉特征。为充分利用到视觉信息,在进行特征融合时采用多头注意力机制,将视觉特征与音频特征进行跨模态融合,得到融合视听特征,最后融合视听特征经过U-Net分离网络得到分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及源失真比(SDR)评价指标,在AVspeech数据集进行实验测试。研究表明,该文所提方法与纯语音分离网络和仅采用特征拼接的视听分离网络相比,性能上分别提高了2.23 dB和1.68 dB。由此表明,采用跨模态注意力进行特征融合,能更加充分利用各个模态相关性,增加的唇部运动特征,能有效提高视频特征的鲁棒性,提高分离效果。
- 兰朝凤蒋朋威陈欢韩闯郭小霞
- 关键词:光流算法
- 一种超宽带全向辐射充气式天线
- 本发明公开了一种超宽带全向辐射充气式天线,属于舰载通信系统领域,包括:上导体辐射结构、上下导体加固装置及下导体馈电装置;上导体辐射结构为圆锥结构;下导体馈电装置为圆柱与半球的结合形;上下导体加固装置在上导体辐射结构与下导...
- 赵晓楠王磊陈欢耿军平杜潇
- Duffing系统线谱值降低的参数选取被引量:1
- 2015年
- 为确定最优的参数组合以降低Duffing系统的线谱能量值,以单自由度Duffing系统为参考模型,利用4阶Runge-Kutta法数值分析线性系统与非线性系统的输出动力学特征,分析阻尼参数和非线性参数对系统性能的影响,确定系统处于混沌状态的系统参数.在Duffing系统参数确定的情况下,选周期外激励力对系统进行控制,辅以Lyapunov指数图确定系统处于混沌状态的参数取值范围;根据选取的参数取值范围做系统输出的Lyapunov指数,并根据指数大小选定系统混沌程度强弱的外激励幅值与角频率参数,进而确定线谱经系统后的能量降低值.结果表明,适当调整控制参数可降低单频线谱值.
- 兰朝凤陈欢张梦李凤臣
- 关键词:DUFFING系统混沌反控制参数选取
- 一种跨海水介质高速率信息传输装置
- 本发明公开了一种跨海水介质高速率信息传输装置,属于新型跨域低频机械天线与水下航行器结构共形设计等技术领域,采用新型跨域低频机械天线模块化设计、与水下航行器结构采用一体化设计,形成跨域低频电磁通导航行器的结构设计方案,并给...
- 陈欢赵晓楠苏帅朱大伟
- 一种综合探测视界和噪声屏蔽效果的声学隔离方法
- 本发明公开了一种综合探测视界和噪声屏蔽效果的声学隔离方法,该方法包括以下步骤:1)根据导流罩的型线和声学设备的视界需求,确定导流罩的透声区域;2)根据导流罩的透声区域,确定声学设备回波不可达区域,即预设声影区的最大范围,...
- 苏帅邹欢徐峰陈欢
- 一种适应声干扰传播路径的组合声障板及安装方法
- 本发明提出一种适应声干扰传播路径的组合声障板及安装方法,包括艉障板和底障板,艉障板包括钢结构支撑件、反声层、阻尼板层和吸声层,钢结构支撑件为曲面钢板,内凹面铺设反声层,外凸面铺设阻尼层,吸声层铺设于阻尼层上,底障板为吸声...
- 邹欢苏帅徐峰陈欢杨嘉伟
- 一种综合探测视界和噪声屏蔽效果的声学隔离方法
- 本发明公开了一种综合探测视界和噪声屏蔽效果的声学隔离方法,该方法包括以下步骤:1)根据导流罩的型线和声学设备的视界需求,确定导流罩的透声区域;2)根据导流罩的透声区域,确定声学设备回波不可达区域,即预设声影区的最大范围,...
- 苏帅邹欢徐峰陈欢
- 文献传递
- 基于双路径递归网络与Conv-TasNet的多头注意力机制视听语音分离
- 2024年
- 目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(Conv-TasNet)和双路径递归神经网络(DPRNN),提出多头注意力机制时域视听语音分离(MHATD-AVSS)模型。通过音频编码器与视觉编码器获得音频特征与视频的唇部特征,并采用多头注意力机制将音频特征与视觉特征进行跨模态融合,得到融合视听特征,将其经DPRNN分离网络,获得不同说话者的分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及信噪比(SNR)评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离两位、3位或4位说话者的混合语音时,该文方法与传统分离网络相比,SDR提高量均在1.87 dB以上,最高可达2.29 dB。由此可见,该文方法能考虑音频信号的相位信息,更好地利用视觉信息与音频信息的相关性,提取更为准确的音视频特性,获得更好的分离效果。
- 兰朝凤蒋朋威陈欢赵世龙郭小霞韩玉兰韩闯
- 关键词:语音分离
- 一种适应声干扰传播路径的组合声障板及安装方法
- 本发明提出一种适应声干扰传播路径的组合声障板及安装方法,包括艉障板和底障板,艉障板包括钢结构支撑件、反声层、阻尼板层和吸声层,钢结构支撑件为曲面钢板,内凹面铺设反声层,外凸面铺设阻尼层,吸声层铺设于阻尼层上,底障板为吸声...
- 邹欢苏帅徐峰陈欢杨嘉伟
- 文献传递
- 一种基于二次连续判决的序列检测方法
- 本发明公开了一种基于二次连续判决的序列检测方法,包括以下步骤:步骤1,定义授权用户和认知用户;步骤2,设置授权用户处于工作状态的门限值和不工作状态的门限值;步骤3,认知用户的接收端对接收到的信号进行采样;步骤4,对采样信...
- 程水军许嘉郭政业雷宜安陈欢