第5讲语音编码.ppt

下载文档 降价啦

2
0
约4.59千字
约 30页
2018-06-10 发布于北京
举报
版权申诉
保障服务

第5讲语音编码.ppt

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

语音处理技术回声抵消语音降噪增益控制语音压缩前提：语音的数字化回声的产生在实时通信中，回声是不可避免的，A端发送的声音在B端放出后，会随着B的声音再传送到A端，形成回声。当A-B间延时很小，则A的回声与A语音近似重叠，人耳无法分辨。在PSTN网中，对于普通的市话呼叫，就属于这种情况。如果A-B延时较大，则回声和语音就能被人耳所分辨，形成干扰。卫星电话和IP电话就属于这种情况回声的分类分为声回声(Acoustic Echo)和线回声(Line Echo) 声回声：Vout播放出来，经空气传播，通过直射、反射等各种方式，形成Vin。声回声形成复杂，回声路径多样化，回声延时较大。线回声：在公用电话网中，干线传输采用4线方式（收、发各两线），而到交换局和电话终端之间，则采用2线方式（收发语音合并）。在2-4线转换过程中，由于阻抗匹配的问题，总会有些语音直接回传到发端，形成回声。这种回声路径比较固定（就是2-4线转换器），回声延时也比较小。线回声抵消技术对于Line Echo，由于回声路径固定，回声延时较小，一般采用自适应滤波技术，用一个滤波器来模拟回声路径，并将滤波器输出与实际的采样语音相减，从而抵消掉回声。声回声抵消技术与Line Echo相比，Acoustic Echo的回声路径更加复杂，而且路径的时变性更大，因此LMS算法已无法及时跟踪。而且由于回声延时很大，如果继续采用线性滤波器，则运算量将大幅增加。首先要选择更好的自适应滤波算法，有更快的收敛速度。其次要采用一些特殊的滤波器结构，以减小运算量。还可以采用多点语音输入输出方式，利用他们的空间相对位置进行计算。在多媒体通信中的应用和公用电话网相比，基于Internet的语音通信有巨大的延时。编解码延时（10-30ms）网络延时（几十至几百ms）处理延时（取决于处理器，一般几ms）因此收发两端延时往往能达到上百ms，必须采用回声抵消技术。在端对端通信中，一般采用线回声抵消，在会议通信中，一般采用声回声抵消。语音降噪在一些恶劣的通信环境下，往往通话中含有极大的噪声（如坦克之间的通信），对通信造成很大的影响。噪声和语音在特性上有很大的不同。可以利用这些特征，将噪声和语音分离，再单独对语音作编码。语音的例子，噪音的例子。语音编辑处理软件CoolEdit2000 噪音和语音的特征过零率：噪音的过零率高，而语音的过零率低。基因周期：噪声没有周期性，而语音有比较明显的周期特征。短时能量：噪声的短时能量稳定，语音的短时能量变化较大。增益控制在企业的会议通信中，两个Group之间的会议是很典型的应用。此时一个Group中的每个成员，距离通信终端的距离都不同。自动增益控制（AGC）通过检测输入信号的能量，并进行调整，使得发送到对端的语音信号能量基本相同，让对端有一个较好的听觉效果。增益控制（二）增益控制的基本技术是让语音的短时能量逼近其长时能量。长时能量的更新较慢，比较稳定。短时能量变化虽然快，但对于每个音节来说，相差不大。因此由于距离调整所引起的短时能量变化，如果向长时能量逼近，则可以保持语音能量的平稳性。对于更复杂的增益控制算法，应考虑对噪声放大所产生的问题。语音压缩声音的分类语音编码的性能评价指标和国际标准语音的特点和模型几种基本的语音编码技术 CELP编码模型的分析语音编码性能指标 1. 编码速率（KBPS、KB/S）信号带宽：200~3400Hz、50~7000Hz、10~20000Hz 采样频率：8K、16K、32K、44.1/48K（Hz）压缩码流速率（kb/s） 2. 编解码延时公用电话网5~10ms，移动蜂窝网不超过100ms 3. 算法复杂度和可扩展性用MIPS衡量，现在的DSP运算能力达到几百上千MIPS。G729和G729A，可扩展性的例子。 4. 抗误码，抗丢包的能力 5. 鲁棒性对不同音源，不同环境下有同样的质量。系统级联后多次编码解码后语音的质量。语音编码性能评价 1. 编码速率（KBPS、KB/S）信号带宽：200~3400Hz、50~7000Hz、10~20000Hz 采样频率：8K、16K、32K、44.1/48K（Hz）压缩码流速率（kb/s） 2. 重建语音质量客观评价：信噪比主观评价：MOS分（1-5分） 3. 编解码延时（ms） 4. 算法复杂度 5. 抗误码，抗丢包的能力，多次编码解码后语音的质量语音编码质量评价（一）可懂度评价：判断韵字测试，改进韵字测试音质评价：MOS（Mean Opinion Score), DMOS(Degradation MOS) 语音编码质量评价（二）时域测度