线性预测技术-科能调度指挥系统

LPAS结构的内核是合成滤波器，它描述了话音号信的短时相关性。如图4.1所示，其输入为激励信号，输出为重构话音信号。编码器按块处理方式工作。在每一时间块中，大量的激励信号试验通过合成滤波器，由此选定产生失真最小的激励信号作为编码参数送出。

原则上可有多种方法实现该合成滤波器。一种方法是倒谱分析(cepstralanalysis)，也就是用DFT和IDFT导出信号的基音周期和共振峰频率，可以很好地用于共振峰合成声码器。另一种方法是用非线性预测，但是由于其复杂度高，且未见显著的性能改进，因此少有采用。目前大量采用的是线性预测方法。严格说来，线性预测分析并不属于LPAS过程的一个组成部分，波形编码的DPCM也采用此项技术，但是它却是LPAS声码器必不可少的一部分，因此有必要对此进行分析和讨论。

4.2.1 帧、子帧和窗口

前已述及，LPAS编码器是按时间块对输入信号进行处理的。在编码器中最大的时间块称之为＂帧"(frame)。合成滤波器系数根据输入信号每帧重新计算一次，计算用到的输入信号抽样值范围称之为LP分析窗口，窗口长度一般和帧长相同，其相对位置可能和帧完全对应，也可能比帧超前，也就是说除了用到当前帧的抽样信号值外，还要用到下一帧的部分样值，这称之为＂予视“(look-ahead)。它的好处是每帧更新的滤波器性能不会产生突变，有利于提高模型的精度，其代价是需引入额外的算法时延。

激励信号更新周期小于合成滤波器的更新周期，称为＂子帧＂(subframe)。通常帧长为10~30ms，子帧长为2~10ms。

图4.3示出窗口，帧和子帧之间的关系。图例中，每帧分为4个子帧，窗口和帧长度相同，但位置比对应帧超前一段时间。

图4.3 帧、子帧和窗口的关系

4.2.2 线性预测系数的计算

设开环预测公式为：

式中，an为线性预测系数。则，开环线性预测残差为：

对应的Z变换为：

A(Z)称为LP分析滤波器。

确定a_n的基本准则是最小化è(i)。

记，a=[a₁,a₂,......,a_n]^T

输入信号的自相关系数为：R(i-k)=E[S(i)S(k)］，式中，E[.]为期望值。

自相关矩阵记为R，其元素为由此得：

对上式求极小值：，得：

上式称为Yule-Walker方程。由于R为对称矩阵，可采用杜宾(Durbin)递推算法求解。

下面进一步说明如何由输入信号值估算R(i)。假设在一帧时间内输入信号是统计稳定的。现用窗口函数截取输入信号抽样序列，窗口长度为L，在窗口范围之内的抽样值S(i)的加权值为w(i)，窗口范围之外的抽样值加权值为零，即不作为计算依据。则，R(k)的统计估计值为：

将上式代入(4.5)式，即可求得预测系数a_n。

在话音编码中，一般都采用闭环预测，即利用重构信号和原输入信号之差产生残差信号，如图4.4所示。图中e(i)和ē（i)为残差信号及其量化值，虚线框所示部分为LP合成滤波器，其中预测器的系数即为a_n。滤波器的输入为ē(i)，输出为重构信号s(i)，内部状态由以前时刻的重构信号S(i-n)决定，s(i-n)值暂存在存储器中。

图4.4 闭环预测结构

由图可知，

其Z变换形式为：

或，

式中，

为LP合成滤波器的传递函数。由此式可知，H(Z)为一个全极点滤波器。由于声道可近似认为由多段刚性声管级联组成，每段声管有其固定的直径。对于话音信号来说，其波长远大于声管直径，可认为是平面波传播，通常还假设由粘度和热传导引起的损耗可以忽略。可以证明，这样的多级尤损级联声管模型具有全极点传递函数，因此用式(4.9)所示H(Z)表征声道模型是合理的。实际上，在语音各音素中，除了鼻音和摩擦音需用零极点模型模拟声道系统外，其余音素都可用全极点系统模拟。由于在数学上，一个零点可用足够多的极点来逼近，即：

因此，只要滤波器阶数足够高，就可用全极点模型模拟几乎所有音素。但是阶数越高，编码比特率将越高，在实际系统中采用IO阶滤波器可以获得满意的比特率一预测增益折衷性能。

4.2.3预测系数的量化和内插

I.系数量化

第三章已述及，低比特率编码器一般采用前馈式自适应预测技术，也就是说编码器必须将预测系数a_n量化后传送至解码器。除了常规的量化精度外，还有一个极其重要的问题必须考虑，这就是系统的稳定性。由于传输信道误码的客观存在，如果直接传送an，在接收端收到的a_n会发生变化，而a_n的少量变化会导致滤波器频谱的很大变化，甚至会使滤波器不稳定。为此，量化并不是直接对a_n进行，而是对a_n的某种变换形式进行。最常用的变换形式就是线谱频率(LSF-Linespectrum frequency)对。

线谱频率对的获取方法是，利用滤波器A(Z)和A(z^-1)构成一个和值滤波器P(Z)和一个差值滤波器Q(Z):

P(Z)=A(Z)+z-^(N+l)A(z^-1) (4.11)

Q(Z)=A(Z)-z-^(N+l)A(z^-1) (4.12)

P(Z)和Q(Z)的根称为LSF，它们有如下十分有用的性质：

· P(Z)和Q(Z)的根均位千单位圆上，且相互交替间隔排列。

· 只要接收端收到的1SF仍然保持上述性质，则对应的A(Z)保持为最小相位滤波器。这样就最大程度地减小了传输误码的影响，并确保LP合成滤波器的稳定性。

. LSF的频谱灵敏度具有很好的频率选择性，也就是说，单个LSF的误差只局限于该频率附近的频谱范围。

性质1和2表示只要LSF保待单调性，即间隔交替，就能确保滤波器的稳定，这就使量化的要求大为放宽，可以采用多种方法进行量化。接收端只要沿单位圆搜索LSF，且按升序依次确定P(Z)、Q(Z)的根即可。另外，相邻LSF表征了频率共振峰，共振峰的带宽取决于对应LSF的密集程度，区F和共振峰的这一关系可以使设计者利用人类听觉系统的感觉特性对LSF量化进行人为控制。性质3表示LSF的频谱灵敏度是局部性的，因此各个LSF可以独立进行量化，对于灵敏度高的参数可以分配较多的量化比特，量化失真不会从一个频谱域泄漏到另一个频谱域去。与此对照，直接对a_n量化就不具备这些优点。一则a_n的稳定性检验复杂，没有一个简易可行的准则；二则一个a_n的变化会引起整个频谱的变化，关联性太大。

对于1个10阶LP滤波器来说，如采用标量量化，预测系数量化约需要30~40比特；如采用矢量量化，约需要25~30比特。对于典型帧长20-30ms,LP系数传送所需的比特率约为1.5-2kbit/s。

2.系数内插

由于预测系数是逐帧计算更新的，在某些情况下，例如一个浊音的起始段，就可能在帧与帧之间产生预测系数的突变，此瞬变效应将导致解码器话音恢复时产生失真。解决这一问题的方法，一是前视，利用部分下一帧的数据计算系数，达到平滑的作用。二是内插，即将上帧和本帧的系数计算值适当组合后作为最终的系数。在实现中，可以对每个子帧选取不同的权值，逐渐变更预测系数。第i子帧的系数可按下式计算：

ST(i)=Wi • ST_F+(1－W_i）．SFp (4.13)

式中，SF_F和S几分别为上帧和本帧计算的系数，wi为第i子帧的权值。对于帧长为20-30ms的情况，每帧包含4个子帧，W_i可取为0.25,0.75,1.0,1.0(i=1,2,3,4)。

和量化一样，内插也不是直接对LP系数进行的，而是对LP系数的某种变换形式，如LSF进行的，以保证内插滤波器的稳定，并允许对不同系数进行不同的内插。