专为易燃易爆环境设计的扩音电话
基于SIP协议的网络电话机
实现不同通信网络间基于SIP协议的信息转换与交互
为应急通信系统提供应急广播设备
专用的应急指挥通中心通信调度设备
提供寻呼、广播、对讲、电话、报警等功能...
提供语音、视频通信相互转换功能...
集成了扩音、对讲、调度、消防联动和报警等多种功能。...
用于实时调度和指挥工作,快速响应和协调沟通...
语音、视频、消息、会议、协作等多种通信方式融为一体...
整合了语音、视频、文本等多种沟通方式,...
确保矿工生命安全和煤矿生产安全的重要组成部分...
集紧急电话对讲、广播和管理调度的综合管理系统......
集数字化、集成化、智能化技术实现音视频通信...
博客
LPAS结构的内核是合成滤波器,它描述了话音号信的短时相关性。如图4.1所示,其输入为激励信号,输出为重构话音信号。编码器按块处理方式工作。在每一时间块中,大量的激励信号试验通过合成滤波器,由此选定产生失真最小的激励信号作为编码参数送出。
原则上可有多种方法实现该合成滤波器。一种方法是倒谱分析(cepstralanalysis),也就是用DFT和IDFT导出信号的基音周期和共振峰频率,可以很好地用于共振峰合成声码器。另一种方法是用非线性预测,但是由于其复杂度高,且未见显著的性能改进,因此少有采用。目前大量采用的是线性预测方法。严格说来,线性预测分析并不属于LPAS过程的一个组成部分,波形编码的DPCM也采用此项技术,但是它却是LPAS声码器必不可少的一部分,因此有必要对此进行分析和讨论。
前已述及,LPAS编码器是按时间块对输入信号进行处理的。在编码器中最大的时间块称之为"帧"(frame)。合成滤波器系数根据输入信号每帧重新计算一次,计算用到的输入信号抽样值范围称之为LP分析窗口,窗口长度一般和帧长相同,其相对位置可能和帧完全对应,也可能比帧超前,也就是说除了用到当前帧的抽样信号值外,还要用到下一帧的部分样值,这称之为"予视“(look-ahead)。它的好处是每帧更新的滤波器性能不会产生突变,有利于提高模型的精度,其代价是需引入额外的算法时延。
激励信号更新周期小于合成滤波器的更新周期,称为"子帧"(subframe)。通常帧长为10~30ms,子帧长为2~10ms。
图4.3示出窗口,帧和子帧之间的关系。图例中,每帧分为4个子帧,窗口和帧长度相同,但位置比对应帧超前一段时间。
图4.3 帧、子帧和窗口的关系
设开环预测公式为:
式中,an为线性预测系数。则,开环线性预测残差为:
对应的Z变换为:
A(Z)称为LP分析滤波器。
确定an的基本准则是最小化è(i)。
记,a=[a1,a2,......,an]T
输入信号的自相关系数为:R(i-k)=E[S(i)S(k)],式中,E[.]为期望值。
自相关矩阵记为R,其元素为由此得:
对上式求极小值:,得:
上式称为Yule-Walker方程。由于R为对称矩阵,可采用杜宾(Durbin)递推算法求解。
下面进一步说明如何由输入信号值估算R(i)。假设在一帧时间内输入信号是统计稳定的。现用窗口函数截取输入信号抽样序列,窗口长度为L,在窗口范围之内的抽样值S(i)的加权值为w(i),窗口范围之外的抽样值加权值为零,即不作为计算依据。则,R(k)的统计估计值为:
将上式代入(4.5)式,即可求得预测系数an。
在话音编码中,一般都采用闭环预测,即利用重构信号和原输入信号之差产生残差信号,如图4.4所示。图中e(i)和ē(i)为残差信号及其量化值,虚线框所示部分为LP合成滤波器,其中预测器的系数即为an。滤波器的输入为ē(i),输出为重构信号s(i),内部状态由以前时刻的重构信号S(i-n)决定,s(i-n)值暂存在存储器中。
图4.4 闭环预测结构
由图可知,
其Z变换形式为:
或,
式中,
为LP合成滤波器的传递函数。由此式可知,H(Z)为一个全极点滤波器。由于声道可近似认为由多段刚性声管级联组成,每段声管有其固定的直径。对于话音信号来说,其波长远大于声管直径,可认为是平面波传播,通常还假设由粘度和热传导引起的损耗可以忽略。可以证明,这样的多级尤损级联声管模型具有全极点传递函数,因此用式(4.9)所示H(Z)表征声道模型是合理的。实际上,在语音各音素中,除了鼻音和摩擦音需用零极点模型模拟声道系统外,其余音素都可用全极点系统模拟。由于在数学上,一个零点可用足够多的极点来逼近,即:
因此,只要滤波器阶数足够高,就可用全极点模型模拟几乎所有音素。但是阶数越高,编码比特率将越高,在实际系统中采用IO阶滤波器可以获得满意的比特率一预测增益折衷性能。
第三章已述及,低比特率编码器一般采用前馈式自适应预测技术,也就是说编码器必须将预测系数an量化后传送至解码器。除了常规的量化精度外,还有一个极其重要的问题必须考虑,这就是系统的稳定性。由于传输信道误码的客观存在,如果直接传送an,在接收端收到的an会发生变化,而an的少量变化会导致滤波器频谱的很大变化,甚至会使滤波器不稳定。为此,量化并不是直接对an进行,而是对an的某种变换形式进行。最常用的变换形式就是线谱频率(LSF-Linespectrum frequency)对。
线谱频率对的获取方法是,利用滤波器A(Z)和A(z-1)构成一个和值滤波器P(Z)和一个差值滤波器Q(Z):
P(Z)=A(Z)+z-(N+l)A(z-1) (4.11)
Q(Z)=A(Z)-z-(N+l)A(z-1) (4.12)
P(Z)和Q(Z)的根称为LSF,它们有如下十分有用的性质:
· P(Z)和Q(Z)的根均位千单位圆上,且相互交替间隔排列。
· 只要接收端收到的1SF仍然保持上述性质,则对应的A(Z)保持为最小相位滤波器。这样就最大程度地减小了传输误码的影响,并确保LP合成滤波器的稳定性。
. LSF的频谱灵敏度具有很好的频率选择性,也就是说,单个LSF的误差只局限于该频率附近的频谱范围。
性质1和2表示只要LSF保待单调性,即间隔交替,就能确保滤波器的稳定,这就使量化的要求大为放宽,可以采用多种方法进行量化。接收端只要沿单位圆搜索LSF,且按升序依次确定P(Z)、Q(Z)的根即可。另外,相邻LSF表征了频率共振峰,共振峰的带宽取决于对应LSF的密集程度,区F和共振峰的这一关系可以使设计者利用人类听觉系统的感觉特性对LSF量化进行人为控制。性质3表示LSF的频谱灵敏度是局部性的,因此各个LSF可以独立进行量化,对于灵敏度高的参数可以分配较多的量化比特,量化失真不会从一个频谱域泄漏到另一个频谱域去。与此对照,直接对an量化就不具备这些优点。一则an的稳定性检验复杂,没有一个简易可行的准则;二则一个an的变化会引起整个频谱的变化,关联性太大。
对于1个10阶LP滤波器来说,如采用标量量化,预测系数量化约需要30~40比特;如采用矢量量化,约需要25~30比特。对于典型帧长20-30ms,LP系数传送所需的比特率约为1.5-2kbit/s。
由于预测系数是逐帧计算更新的,在某些情况下,例如一个浊音的起始段,就可能在帧与帧之间产生预测系数的突变,此瞬变效应将导致解码器话音恢复时产生失真。解决这一问题的方法,一是前视,利用部分下一帧的数据计算系数,达到平滑的作用。二是内插,即将上帧和本帧的系数计算值适当组合后作为最终的系数。在实现中,可以对每个子帧选取不同的权值,逐渐变更预测系数。第i子帧的系数可按下式计算:
ST(i)=Wi • STF+(1-Wi).SFp (4.13)
式中,SFF和S几分别为上帧和本帧计算的系数,wi为第i子帧的权值。对于帧长为20-30ms的情况,每帧包含4个子帧,Wi可取为0.25,0.75,1.0,1.0(i=1,2,3,4)。
和量化一样,内插也不是直接对LP系数进行的,而是对LP系数的某种变换形式,如LSF进行的,以保证内插滤波器的稳定,并允许对不同系数进行不同的内插。
常用的误差加权滤波器是根据表征话音信号短时相关性的LP系数构成的,其传递函数为:
式中,A(Z/γ)的表达式为:
若丫<l,则1/A(Z/γ)滤波器的根更靠近单位圆的圆心,对应为频谱共振峰的带宽加宽,从而使共振峰附近的噪声得到加强。
Y1和Y2的值需根据听觉和编码器的量化失真选定。常用值为γ1=1.0,γ2=0.8。滤波器系数可以根据量化LP系数或未量化LP系数导出,后者效果更好。
下一篇
通信知识
激励信号生成模型是声码器的主体部分,lPAS声码器的合成分析指的就是激励信号的生成机理,它通过分析比较大量激励源合成的结果,从中选出最佳匹配的激励信号。声码器编码输出的主要部分也是激励信号。lPAS声码器的比特率通常为4-16kbit/s,这表示激励信号的量化比特约为每个抽样0.5~2比特。激励信号包括清/浊音判定、基音周期和增益。清/浊音可根据话音信号自相关函数归一化峰值电平来判定。若电平值大于 ...
查看更多
分享
10G PON技术概述10G PON(Passive Optical Netwo......
2024-06-19
7G网络的概念7G网络目前仍然是一个概念性的话题,它被视为6G网络的进一步发展。......
2024-06-17
5G LAN是什么?5G LAN(Local Area Network)是一种基......
2024-06-15