语音信号的加窗处理
平稳的随机过程是研究语音信号的主要手段,但是语音信号本身并不是平衡的。
一,语音信号不平稳
语音信号在产生过程中与环境和发声器官的联系很紧密,与各种运动都是相关的,信号本身是不平移的信号。主要是由于发声器官的运动不可预测带来的短时变。
但发声器官的状态变化速度较声音振动的速度要缓慢的多,因此语音信号可以认为是短时平稳的。研究发现,在10~30ms的范围内,语音频谱特征和一些物理特征参数基本保持不变。因此可以将平稳过程的处理方法和理论引入到语音信号的短时处理中,将语音信号划分为很多短时的语音段,每个短时的语音段称为一个分析帧。这样,对一帧语音信号进行处理就相当于对特征固定的持续信号进行处理。
如果帧和帧之间都是连续的,那会不会出现帧和帧之间的信息可能会得不到处理的机会,为了避免这种情况,在分帧时需要确定一个帧移,也就是帧是叠加的,使帧和帧之间能够平滑的过渡,帧移一般都是取0~1/2之间的某一个值。我一般取2/5。
二,问题
在对语音信号进行分帧之后,然后每一帧都当成平稳信号来处理,后面我们会用傅里叶展开每一项,以获取Mel频谱特征,这时问题就出来了。如下效应会出现
,在0~N以外,全是0。当然也可以加其他的窗,如方窗,或者hann窗,但hamming窗应用比较多。