- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
5第五章语音编码
; 编码、传输、存储和译码是语音数字传输和数字存储的必要过程。
随着语音通信技术的发展,压缩语音信号的传输带宽,降低信道的传输速率,一直是人们追求的目标。语音编码在实现这一目标的过程中担当重要的角色。
语音编码就是使表达语音信号的比特数目最小。;二、编码速率(信息容量);二、编码速率(信息容量);三、编码的分类;2.参数编码(声源编码 parametric coding):
根据语音信号产生的数学模型,通过对语音信号特征参数的提取后进行编码(将特征参数变换成数字代码进行传输)。在接收端将特征参数,结合数学模型,恢复语音,力图使重建语音保持尽可能高的可懂度,重建语音信号的波形同原始语音信号的波形可能会有相当大的区别。如线性预测(LPC)编码类。编码速率低,2.4-1.2kb/s,自然度低,对环境噪声敏感。;3.混合编码(Hybrid coding):
将波形编码与参数编码相结合,在2.4-1.2kb/s速率上能够得到高质量的合成语音。混合编码包括若干语音特征参量又包括部分波形编码信息,以达到波形编码的高质量和参量编码的低速率的优点。;4. 语音编码的极限速率
语音中最基本的元素是音素,大约有128~256个,如果按通常的说话速度,每秒平均发出10个音素,则信息率为: I=[log2(256)10]bps=80bps
把发音看成是以语音速率来传送,则语音编码的极限速率为80bps,从数字化标准的编码速率64kbps,到极限速率80bps,之间的距离,对于理论研究和实践有着极大的吸引力。; 语音质量是衡量语音编码算法优劣的关键性能之一。语音质量通常分为四类:
(1)广播级:宽带(0-7000Hz)高质量的语音,感觉不出噪声存在
(2)网络或电话级:200Hz-3200Hz,信噪比大于30db。
(3)通信级:完全可以听懂,但和长途电话相比,有明显失真。
(4)合成级:80%-90%可懂度,音质较差,听起来像机器讲话,失去了讲话者的个人特征。
; 评价指标:清晰度或可懂度、音质。前者是指语音是否容易听清楚;后者指语音听起来有多自然。
(1)可懂度评价 DRT:Diagnostic Rhymer Test (2)音质评价:
MOS:Mean Opinion Score 平均意见得分
DAM:Diagnostic Acceptability Measure 判断满意度得分。; MOS得分为五级:优、良、可、差和坏。满分为5分,相当调频广播质量;4分以上是长途电话网标准;3.5分为通信标准; 3.0分仍有较好的可懂度,保持自然度;2.5分只维持可懂度, 是战术通信标准。 ;(1)波形失真度,用信噪比来度量
(2)频谱失真测量
(3)谱包络失真测量; 均匀量化时,无论大的输入信号还是小的输入信号一律采用相同的量化间隔,为了适应大的输入信号,同时又要满足精度要求,就需要增加样本的位数。 ?=2V/L=2V/2R,但是对话音信号来说,大信号出现的机会并不多,增加的样本数就没有充分利用。因此采用非均匀量化。; 其基本思想是:大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。在满足精度要求的情况下用较少的位数来表示。译码时,采用相同的规则。也可视为将信号进行非线性变换后再作均匀量化,如对信号进行对数压缩,微弱的信号被放大,强的信号被压缩。译码时,指数扩张。; 现在的非均匀量化中,一般采用两种压缩扩张非均匀量化方法。采样后信号幅度和量化数据之间有两种对应关系,一种称为u 律压扩(companding)算法,另一种称为A 律压扩算法。 u 律压扩主要用于北美和日本等地区的电话通信中。 A 律压扩主要用在欧洲和中国的地区的电话通信中。;(1)输入xa(nT)的范围归一化为(-1~+1);
(2)输出FA(x(n))的范围为(-1~+1);
(3)A为压扩参数,它反映最大量化间隔和最小量化间隔的比值。A=87.56; 我国的PCM30/32路基群也采用A律13折线压缩特性。μ律15折线主要用于美国、加拿大和日本等国的PCM 24路基群中。
CCITT建议G.711规定上述两种折线近似压缩律为国际标准,且在国际间数字系统相互连接时,要以A律为标准。 因此这里重点介绍A律13折线。 ; FA(x);A律压扩编码;对输入动态范围为(-5v,+5v), 用A律压扩编码,有:; I=8kHz*8bit=64kbit/s
实际中,麦克风采集信号,量化为12/13/14/15/16位的输入信号,使用A律压扩编码,每个样本的量化位为8。 ;对输入信号范围(-1,1):
A律压扩编码的最小量阶为
?min=(1
您可能关注的文档
- 4.1人类地域联系的主要方式.ppt
- 4.2.1海水中的元素-氯.ppt
- 4.2.2海水中的元素-氯.ppt
- 4.2[郭海燕]检验报告的审查及常见退回理由统计分析.ppt
- 4.1测量呼吸和心跳.ppt
- 4.1国际礼仪常识[一].ppt
- 4.2-气温的变化与差异[商务星球版].ppt
- 4.2建站规划[zheng].ppt
- 4.2.1富集在海水中的元素氯.ppt
- 4.1第2课时[公开课].ppt
- 2023咸阳职业技术学院招聘笔试真题参考答案详解.docx
- 2023四川化工职业技术学院招聘笔试真题及参考答案详解.docx
- 2023哈尔滨职业技术学院招聘笔试真题及参考答案详解.docx
- 2023商洛职业技术学院招聘笔试真题及答案详解1套.docx
- 2023呼伦贝尔职业技术学院招聘笔试真题参考答案详解.docx
- 2023南阳农业职业学院招聘笔试真题参考答案详解.docx
- 2023天津公安警官职业学院招聘笔试真题带答案详解.docx
- 2023年上海电机学院招聘笔试真题参考答案详解.docx
- 2023年四川艺术职业学院招聘笔试真题参考答案详解.docx
- 2023安徽体育运动职业技术学院招聘笔试真题及答案详解一套.docx
最近下载
- 北京市海淀区六年级下册期末卷及答案.pdf VIP
- 石家庄市2025年高三年级教学质量检测(一)数学试卷(含答案).pdf
- 4.1树与二叉树教学设计2023—2024学年浙教版(2019)高中信息技术选修1.docx
- 如何上好一堂美术课课件.pptx
- 商法学 课件( 马工程) 第8--11章 证券法---破产法.pptx
- 济宁三号煤矿8.0 Mt-a新井设计 综采工作面沿空掘巷技术浅析.docx VIP
- ASUS华硕ROG - 玩家国度机箱ROG Z11 OLED editionROG Z11 user's manual for multiple languages.pdf
- T-CAQ 10204-2017 质量信得过班组建设准则.pdf
- 2025年山东省实验中学高三一模高考英语试卷试题(含答案详解).pdf VIP
- 医学免疫学(第7版)PPT课件 第二章 免疫器官和组织.pptx
文档评论(0)