为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征中的长期依赖关系,并强化网络对输入上下文信息的理解,本文提出了一种基于一维扩张卷积与Transformer的时域视听融合语音分离模型。将基于频域的传统视听融合语音分离方法应用到时域中,避免了时频变换带来的信息损失和相位重构问题。所提网络架构包含四个模块:一个视觉特征提取网络,用于从视频帧中提取唇部嵌入特征;一个音频编码器,用于将混合语音转换为特征表示;一个多模态分离网络,主要由音频子网络、视频子网络,以及Transformer网络组成,用于利用视觉和音频特征进行语音分离;以及一个音频解码器,用于将分离后的特征还原为干净的语音。本文使用LRS2数据集生成的包含两个说话者混合语音的数据集。实验结果表明,所提出的网络在尺度不变信噪比改进(Scale-Invariant Signal-to-Noise Ratio Improvement,SISNRi)与信号失真比改进(Signal-to-Distortion Ratio Improvement,SDRi)这两种指标上分别达到14.0 dB与14.3 dB,较纯音频分离模型和普适的视听融合分离模型有明显的性能提升。
在声学回声消除(acoustic echo cancellation,AEC)系统中,双讲(doubletalk,DT)信号和信道突变都导致滤波器误差变大,然而AEC系统需要分别对这2种情况做出不同的反映。因此,常见的基于误差信号及其函数的双讲检测(doubletalk detection,DTD)算法在信道突变情况下容易产生误判。为此,利用声学回声信道的特殊性和归一化最小均方(normalized least mean square,NLMS)算法的跟踪特性,提出了一种新型的基于部分信道估计的DTD算法。该算法采用累加信道估计尾部的值作为判决条件,能够区分出通话过程中的双讲时段并且忽略回声信道突变的影响。该算法具有计算复杂度小和检测DT信号速度快的优点。仿真结果表明,在实验条件下该算法优于常见的DTD算法。