5第五章语音编码.pptVIP

下载本文档

9
0
约3.49千字
约 55页
2017-05-04 发布于四川
举报
版权申诉

5第五章语音编码.ppt

1、本文档共55页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

5第五章语音编码

; 编码、传输、存储和译码是语音数字传输和数字存储的必要过程。随着语音通信技术的发展，压缩语音信号的传输带宽，降低信道的传输速率，一直是人们追求的目标。语音编码在实现这一目标的过程中担当重要的角色。语音编码就是使表达语音信号的比特数目最小。;二、编码速率（信息容量）;二、编码速率（信息容量）;三、编码的分类;2.参数编码（声源编码 parametric coding）：根据语音信号产生的数学模型，通过对语音信号特征参数的提取后进行编码（将特征参数变换成数字代码进行传输）。在接收端将特征参数，结合数学模型，恢复语音，力图使重建语音保持尽可能高的可懂度，重建语音信号的波形同原始语音信号的波形可能会有相当大的区别。如线性预测（LPC）编码类。编码速率低，2.4-1.2kb/s，自然度低，对环境噪声敏感。;3.混合编码(Hybrid coding)：将波形编码与参数编码相结合，在2.4-1.2kb/s速率上能够得到高质量的合成语音。混合编码包括若干语音特征参量又包括部分波形编码信息，以达到波形编码的高质量和参量编码的低速率的优点。;4. 语音编码的极限速率语音中最基本的元素是音素，大约有128～256个，如果按通常的说话速度，每秒平均发出10个音素，则信息率为： I=[log2(256)10]bps=80bps 把发音看成是以语音速率来传送，则语音编码的极限速率为80bps,从数字化标准的编码速率64kbps，到极限速率80bps，之间的距离，对于理论研究和实践有着极大的吸引力。; 语音质量是衡量语音编码算法优劣的关键性能之一。语音质量通常分为四类：（1）广播级:宽带(0-7000Hz)高质量的语音，感觉不出噪声存在（2）网络或电话级：200Hz-3200Hz,信噪比大于30db。（3）通信级:完全可以听懂，但和长途电话相比，有明显失真。（4）合成级：80%-90%可懂度，音质较差，听起来像机器讲话，失去了讲话者的个人特征。 ; 评价指标：清晰度或可懂度、音质。前者是指语音是否容易听清楚；后者指语音听起来有多自然。（1）可懂度评价 DRT：Diagnostic Rhymer Test （2）音质评价： MOS：Mean Opinion Score 平均意见得分 DAM：Diagnostic Acceptability Measure 判断满意度得分。; MOS得分为五级:优、良、可、差和坏。满分为5分，相当调频广播质量；4分以上是长途电话网标准；3.5分为通信标准； 3.0分仍有较好的可懂度，保持自然度；2.5分只维持可懂度，是战术通信标准。 ;（1）波形失真度，用信噪比来度量（2）频谱失真测量（3）谱包络失真测量; 均匀量化时，无论大的输入信号还是小的输入信号一律采用相同的量化间隔，为了适应大的输入信号，同时又要满足精度要求，就需要增加样本的位数。 ?=2V/L=2V/2R，但是对话音信号来说，大信号出现的机会并不多，增加的样本数就没有充分利用。因此采用非均匀量化。; 其基本思想是：大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔。在满足精度要求的情况下用较少的位数来表示。译码时，采用相同的规则。也可视为将信号进行非线性变换后再作均匀量化，如对信号进行对数压缩，微弱的信号被放大，强的信号被压缩。译码时，指数扩张。; 现在的非均匀量化中，一般采用两种压缩扩张非均匀量化方法。采样后信号幅度和量化数据之间有两种对应关系，一种称为u 律压扩（companding）算法，另一种称为A 律压扩算法。 u 律压扩主要用于北美和日本等地区的电话通信中。 A 律压扩主要用在欧洲和中国的地区的电话通信中。;（1）输入xa(nT)的范围归一化为（－1～＋1）; （2）输出FA(x(n))的范围为（－1～＋1）；（3）A为压扩参数，它反映最大量化间隔和最小量化间隔的比值。A=87.56; 我国的PCM30/32路基群也采用A律13折线压缩特性。μ律15折线主要用于美国、加拿大和日本等国的PCM 24路基群中。 CCITT建议G.711规定上述两种折线近似压缩律为国际标准，且在国际间数字系统相互连接时，要以A律为标准。因此这里重点介绍A律13折线。 ; FA(x);A律压扩编码;对输入动态范围为（-5v,+5v），用A律压扩编码，有：; I=8kHz*8bit=64kbit/s 实际中，麦克风采集信号，量化为12/13/14/15/16位的输入信号，使用A律压扩编码，每个样本的量化位为8。 ;对输入信号范围（-1,1）： A律压扩编码的最小量阶为 ?min=(1