COHERENT MODULATION COMB FILTERING FOR ENHANCING SPEECH IN WIND
文章链接:https://www.iwaenc/proceedings/2008/contents/papers/9060.pdf?origin=publication_detail
最近在看Amazon研究院的RNNoise、PercepNet以及个性化PercepNet的时候都用到了梳状滤波器来提高语谱图中的谐波的表现,这篇文章的梳状滤波器设计的很棒,可以作为部分参考资料。
下面我们来一起读一下这篇文章:
1.介绍
在语音增强的信号处理领域已经做了大量的工作。两种标准的降噪方法是维纳滤波[1]和谱减法[2]。这两种算法都是在假设噪声是平稳或准平稳的基础上工作的,并且当噪声符合这些特征时都能很好地执行。然而,风噪声具有高度的非平稳性和不可预测性,导致这类方法的性能很差[3]。其他方法包括具有高斯混合模型的隐马尔可夫模型[4]、矢量量化[5]和非负稀疏编码[3]。上述方法需要语音、风噪声或两者的训练集来开发模型。相反,提出的方法引入了一种新的风噪声去除方法,该方法不依赖于从训练数据中建立模型。由于此方法从根本上不同于上面的建模方法,因此它不会直接与它们竞争,并且有可能与前面的方法结合使用,以获得比单独使用其中任何一种方法更好的性能。
2.所提出的滤波器模型
所提出的滤波模型利用语音和噪声的特性进行语音增强和噪声抑制,因此在讨论滤波模型之前,首先要给出感兴趣的语音和风的特征。风的噪声模型是一个非平稳噪声源,能量集中在较低的频率上,随着频率的增加以大约1/f的速度滚动[6](见图1)。非平稳性的产生是因为阵发的风在统计上是动态的和不可预测的。使用的语音模型[7]将语音分类为浊音或清音。具有显著谐波内容的语音被建模为浊音,而语音的非谐波分量被清音。已经观察到浊音的能量集中在较低的频率(<4 kHz),而清音的能量主要集中在较高的频率(>4 kHz)。
图1. 风噪的语谱图
提出的滤波器模型分为两个主要分量,一个用于高频(>4 kHz),另一个用于低频(<4 kHz)。高频模块是一个简单的FIR高通滤波器,这是可能的,因为在较高的频率中只存在一小部分噪声能量。然而,在较低的频率下,信噪比通常可以小于0dB。该滤波模型利用了语音中的大部分低频内容本质上是谐波的这一事实。使用相干调制梳状滤波器从信号中提取谐波。这些谐波信号以谐波间隔包含语音能量和噪声。但在谐波频率范围内,语音的信噪比要比原始信号高得多,因为噪声能量在整个频谱中分布得更均匀,而语音能量则集中在谐波上。
风噪声去除系统的其他组件包括音调跟踪器、风检测器和浊音检测器。有关完整的除风系统的更多详细信息,请参阅[8]。
3.传统的梳状滤波器
梳状滤波的两种类型是FIR和IIR。用于语音增强的FIR梳状滤波最早是由Shields[9]和Frazier等人探索的[10]。FIR梳状滤波器通过在估计的基音周期放置均匀间隔的非零滤波系数并将所有其他系数设置为零来增强信号的周期性。这种FIR方法产生几个周期的精确同步平均波形。因此,非周期性噪声被衰减。如果演讲恰好是周期性的,这种FIR方法会很好地发挥作用。然而,由于语音不是完全周期性的,这种FIR方法存在已知的失真。由于梳状滤波对准周期语音造成的时间模糊,这种方法在降低了感知噪声的情况下降低了清晰度[11,12]。
另一种方法,IIR梳状滤波,后来由Nehorai和Porat[13]发展起来,改进了FIR梳状滤波器的许多不良特性。该方法级联多个二阶IIR带通滤波器,形成高阶梳状滤波器。IIR版本能够以更小的阶数实现更理想的幅值频率响应,并且不容易出现困扰FIR版本的时间模糊。
尽管IIR梳状滤波器与FIR滤波器相比具有显著的优势,但由于不稳定性的限制,高阶IIR梳状滤波器往往是不可行的,如图2所示。例如,包含15次谐波的IIR滤波器在大约225 Hz(fs=16 kHz)以下变得不稳定,这是女性语音的频率范围的中间,比男性语音高出约一个八度。在较低的采样率下,问题更加严重,因为稳定边界处的基频随采样频率而变化。例如,对于8 kHz的采样率,上述15次谐波(30阶)滤波器仅在125 Hz时变得不稳定。这意味着这样的滤波器对于许多语音应用来说是不切实际的。
图2. IIR梳状滤波器稳定性。绿色表示稳定的参数,红色表示不稳定的参数。
高阶IIR滤波器对量化误差非常敏感,只有一个很小的误差就会导致极点跳出单位圆,使滤波器不稳定。在这里介绍的工作中,使用了64位双精度浮点数。在使用32位或更小字长的硬件系统(例如移动设备)中,稳定性约束更是一个问题。在下一节中,我们将介绍相干解调如何避开这些限制,从而实现任意阶次的IIR梳状滤波器(参见图3)。
图3. IIR梳状滤波器稳定性。绿色表示稳定的参数,红色表示不稳定的参数。
4.提出的梳状滤波器模型
本部分将首先介绍相干解调的一些背景知识,并将其与以前的非相干解调版本进行对比。将给出为什么在这种情况下只有相干解调有效的解释。接下来,我们将介绍如何使用相干解调来绕过传统高阶IIR梳状滤波器的限制。
4.1 相干解调
相干解调是最近发展起来的一种将信号表示为一组载波和调制器的新方式。开发它是为了解决非相干调制滤波[14]的缺点,非相干调制滤波将分析信号分解成包络m(N)和载波c(N):
其中H{}是希尔伯特变换,k表示如果需要,可以使用子带或其他方法将信号分成一组带限分析信号。非相干解调的一些缺点是希尔伯特载波ck(N)的带宽通常大于原始解析信号xˆk(N)[15]的带宽。此外,过滤封套会产生明显的伪影。Atlas等人。[16]已经提出希尔伯特包络mk(N)对于后续处理是不正确的。通过不将该调制包络限制为非负和实数,载波和调制器都享有更好的特性,例如降低带宽的载波和mk(N)的无伪影滤波。
相干解调类似于非相干方法,因为它们都将解析信号分解成单个载波/调制器乘积对。然而,不同之处在于载波和调制器信号是如何估计的。前面描述的非相干方法简单地将信号分割成极性幅度和相位分量,它们是调制器和载波。相反,相干方法首先估计信号的载波,然后将信号乘以载波的复共轭以确定潜在的复调制器:
调制器隔离后,可以根据需要进行滤波。因此,相干调制滤波包括将信号分成一系列载波(使用或不使用子带),为每个载波找到相干调制器,对调制器进行滤波,将滤波后的调制器与原始载波重新组合,并将信号加回一起。
在相干调制滤波中,载波估计是关键步骤。已经提出了几种不同的估计技术。一种流行的技术是首先将宽带信号分割成子带,并在每个子带上使用载波估计和解调。通常使用的估计技术计算子频带的频谱能量的一阶矩[17]。本文使用的载波估计算法是最小二乘谐波模型[18],因为它不需要将信号分割成子带。通过利用语音的谐波特性,它在低信噪比时也表现得更好。
到目前为止,这一领域的大多数研究(例如[19])都是在调制器上使用简单的线性时不变FIR滤波。在这种情况下,可以用另一种方式来考虑调制器。低通调制滤波器还可以被认为是具有固定带宽和中心频率的时变带通滤波器,其跟踪通过期望的载波跟踪方法找到的估计载波频率。这里提出的新方法,相干调制梳状滤波,对自适应梳状滤波器进行调制,以便它可以滤除任何所需的连续谐波,如图4所示的6到10次或更高的谐波。使用传统梳状滤波器无法进行这样的处理。
图4.风噪声中的语音(-6 dB SNR)
4.2.相干调制梳状滤波器
相干调制梳状滤波器(CMCF)采用相干解调技术来扩展传统IIR梳状滤波器的性能。因为语音的音调是时变的,所以时间信号被分成短帧,其中音调被假定为恒定。在每一帧中,用于CMCF的信号是谐波分量s(N)和非谐波分量v(N)的和:
其目的是去除非谐波分量,同时保留谐波分量。为此,创建陷波滤波器h(N),然后从原始信号中减去以强调谐波:
其中K是滤波器的直流增益。梳状滤波器是通过将一系列相同的带通滤波器级联在一起来创建的:
参数ρ是极点的大小[13]。当极点的幅值接近1时,滤波器的带宽围绕定义的谐波收紧。当谐波计数超过5时,上述滤波器在某些频率下会变得不稳定,因此需要一种新的梳状滤波方法。相干调制梳状滤波扩展了传统IIR梳状滤波器的稳定性约束,允许过滤任意数量的谐波。通过对原始信号进行相干解调,普通梳状滤波器可用于对信号中任意位置的最多五次连续谐波进行滤波。作为示例,使用以下步骤对谐波N1至N2进行滤波:
1.计算实值信号的解析信号:
有关CMCF和风噪声消除的更多信息,请参考[8]。
图5.使用CMCF处理的语音
5. 实验
为了测试该系统,来自卡内基梅隆大学ARCTIC Corpus语料库[20]的语音信号与风噪声爆发样本混合在一起。这样的例子可以在图4中看到,在0.8-1.5秒和2.0-3.0秒可以清楚地看到阵风。然后使用易于稳定的20次谐波CMCF对信号进行处理。图5是处理后的信号,显示了显著的降噪效果,伪影很少。非正式收听测试表明,相干调制梳状滤波信号比未经处理的信号更受欢迎。
6.未来工作
CMCF开辟了未来研究的几个领域。其中一个主题是如何在时间和谐波之间最佳地改变滤波器带宽。目前,极点大小是固定的,这意味着梳状过滤器始终处于“打开”状态。更理想的是能够根据语音的音调和信噪比来控制滤波器的带宽。此外,如果为高次谐波加宽带宽,在高频分量和低频分量之间提供更渐进的过渡,则会感觉到更少的伪影。最后,在测试中还需要做更多的工作,包括正式的听力测试,使用带风的语音录音而不是在录音棚中混合,在音频被截断的情况下测试系统,以及测试使用CMCF预处理的自动语音识别系统。
参考文献:
[1] Norbert Wiener, Extrapolation, Interpolation, and Smoothing of Stationary Time Series, The MIT Press, 1964.
[2] S. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Transactions on Signal Processing, vol. 27, pp. 113–120, 1979.
[3] M.N. Schmidt, J. Larsen, and Fu-Tien Hsiao, “Wind noise reduction using non-negative sparse coding,” in Machine Learning for Signal Processing, 2007 IEEE Workshop on, 2007, pp. 431–436.
[4] Sam T. Roweis, “One microphone source separation,” 2000, pp. 793–799.
[5] D.P.W. Ellis and R.J. Weiss, “Model-based monaural source separation using a vector-quantized phase-vocoder representation,” in Acoustics, Speech, and Signal Processing. ICASSP 2006 Proceedings, 2006, vol. 5, p. V.
[6] Scott Morgan and Richard Raspet, “Investigation of the mechanisms of low-frequency wind noise generation outdoors,” The Journal of the Acoustical Society of America, vol. 92, pp. 1180–1183, 1992.
[7] Thomas F. Quatieri, Discrete-Time Speech Signal Processing: Principles and Practice, Prentice Hall PTR, Nov. 2001.
[8] Brian King, Enhancing Single-Channel Speech in Wind Noise Using Coherent Modulation Comb Filtering, MSEE Thesis, University of Washington, 2008.
[9] U. C. Shields, Separation of added speech signals by digital comb filtering, SM thesis, M. I. T., 1970.
[10] R. Frazier, S. Samsam, L. Braida, and A. Oppenheim, “Enhancement of speech by adaptive filtering,” in Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP ’76., 1976, vol. 1, pp. 251–253.
[11] Jae Lim, A. Oppenheim, and L. Braida, “Evaluation of an adaptive comb filtering method for enhancing speech degraded by white noise addition,” IEEE Transactions on Signal Processing, vol. 26, pp. 354–358, 1978.
[12] Y. Perlmutter, L. Braids, R. Frazier, and A. Oppenheim, “Evaluation of a speech enhancement system,” in Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP ’77., 1977, vol. 2, pp. 212–215.
[13] A. Nehorai and B. Porat, “Adaptive comb filtering for harmonic signal enhancement,” IEEE Transactions on Signal Processing, vol. 34, pp. 1124–1138, 1986.
[14] Rob Drullman, Joost M. Festen, and Reinier Plomp, “Effect of temporal envelope smearing on speech reception,” The Journal of the Acoustical Society of America, vol. 95, pp. 1053–1064, Feb. 1994.
[15] Oded Ghitza, “On the upper cutoff frequency of the auditory critical-band envelope detectors in the context of speech perception,” The Journal of the Acoustical Society of America, vol. 110, pp. 1628–1640, 2001.
[16] L. Atlas, Qin Li, and J. Thompson, “Homomorphic modulation spectra,” in Acoustics, Speech, and Signal Processing. ICASSP 2004 Proceedings, 2004, vol. 2, pp. ii–761–4 vol.2.
[17] Patrick J. Loughlin and Berkant Tacer, “On the amplitude- and frequency-modulation decomposition of signals,” The Journal of the Acoustical Society of America, vol. 100, pp. 1594–1601, 1996.
[18] N. Abu-Shikhah and M. Deriche, “A robust technique for harmonic analysis of speech,” in Acoustics, Speech, and Signal Processing, 2001. Proceedings. (ICASSP ’01). 2001 IEEE International Conference on, 2001, vol. 2, pp. 877–880 vol.2.
[19] S.M. Schimmel, L.E. Atlas, and K. Nie, “Feasibility of single channel speaker separation based on modulation frequency analysis,” in Acoustics, Speech and Signal Processing, 2007. ICASSP 2007. IEEE International Conference on, 2007, vol. 4, pp. IV–605–IV–608.
[20] Alan Black and Kevin Lenzo, “Festvox: Cmu artic databases,” May 2008.
更多推荐
基于梳状滤波器的的语音增强
发布评论