- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音处理技术 回声抵消 语音降噪 增益控制 语音压缩 前提:语音的数字化 回声的产生 在实时通信中,回声是不可避免的,A端发送的声音在B端放出后,会随着B的声音再传送到A端,形成回声。 当A-B间延时很小,则A的回声与A语音近似重叠,人耳无法分辨。在PSTN网中,对于普通的市话呼叫,就属于这种情况。如果A-B延时较大,则回声和语音就能被人耳所分辨,形成干扰。卫星电话和IP电话就属于这种情况 回声的分类 分为声回声(Acoustic Echo)和线回声(Line Echo) 声回声:Vout播放出来,经空气传播,通过直射、反射等各种方式,形成Vin。声回声形成复杂,回声路径多样化,回声延时较大。 线回声:在公用电话网中,干线传输采用4线方式(收、发各两线),而到交换局和电话终端之间,则采用2线方式(收发语音合并)。在2-4线转换过程中,由于阻抗匹配的问题,总会有些语音直接回传到发端,形成回声。这种回声路径比较固定(就是2-4线转换器),回声延时也比较小。 线回声抵消技术 对于Line Echo,由于回声路径固定,回声延时较小,一般采用自适应滤波技术,用一个滤波器来模拟回声路径,并将滤波器输出与实际的采样语音相减,从而抵消掉回声。 声回声抵消技术 与Line Echo相比,Acoustic Echo的回声路径更加复杂,而且路径的时变性更大,因此LMS算法已无法及时跟踪。而且由于回声延时很大,如果继续采用线性滤波器,则运算量将大幅增加。 首先要选择更好的自适应滤波算法,有更快的收敛速度。其次要采用一些特殊的滤波器结构,以减小运算量。还可以采用多点语音输入输出方式,利用他们的空间相对位置进行计算。 在多媒体通信中的应用 和公用电话网相比,基于Internet的语音通信有巨大的延时。 编解码延时(10-30ms) 网络延时(几十至几百ms) 处理延时(取决于处理器,一般几ms) 因此收发两端延时往往能达到上百ms,必须采用回声抵消技术。 在端对端通信中,一般采用线回声抵消,在会议通信中,一般采用声回声抵消。 语音降噪 在一些恶劣的通信环境下,往往通话中含有极大的噪声(如坦克之间的通信),对通信造成很大的影响。 噪声和语音在特性上有很大的不同。可以利用这些特征,将噪声和语音分离,再单独对语音作编码。 语音的例子,噪音的例子。 语音编辑处理软件CoolEdit2000 噪音和语音的特征 过零率:噪音的过零率高,而语音的过零率低。 基因周期:噪声没有周期性,而语音有比较明显的周期特征。 短时能量:噪声的短时能量稳定,语音的短时能量变化较大。 增益控制 在企业的会议通信中,两个Group之间的会议是很典型的应用。此时一个Group中的每个成员,距离通信终端的距离都不同。 自动增益控制(AGC)通过检测输入信号的能量,并进行调整,使得发送到对端的语音信号能量基本相同,让对端有一个较好的听觉效果。 增益控制(二) 增益控制的基本技术是让语音的短时能量逼近其长时能量。长时能量的更新较慢,比较稳定。短时能量变化虽然快,但对于每个音节来说,相差不大。因此由于距离调整所引起的短时能量变化,如果向长时能量逼近,则可以保持语音能量的平稳性。 对于更复杂的增益控制算法,应考虑对噪声放大所产生的问题。 语音压缩 声音的分类 语音编码的性能评价指标和国际标准 语音的特点和模型 几种基本的语音编码技术 CELP编码模型的分析 语音编码性能指标 1. 编码速率(KBPS、KB/S) 信号带宽 :200~3400Hz、50~7000Hz、10~20000Hz 采样频率:8K、16K、32K、44.1/48K(Hz) 压缩码流速率(kb/s) 2. 编解码延时 公用电话网5~10ms,移动蜂窝网不超过100ms 3. 算法复杂度和可扩展性 用MIPS衡量,现在的DSP运算能力达到几百上千MIPS。G729和G729A,可扩展性的例子。 4. 抗误码,抗丢包的能力 5. 鲁棒性 对不同音源,不同环境下有同样的质量。系统级联后多次编码解码后语音的质量。 语音编码性能评价 1. 编码速率(KBPS、KB/S) 信号带宽 :200~3400Hz、50~7000Hz、10~20000Hz 采样频率:8K、16K、32K、44.1/48K(Hz) 压缩码流速率(kb/s) 2. 重建语音质量 客观评价:信噪比 主观评价:MOS分(1-5分) 3. 编解码延时(ms) 4. 算法复杂度 5. 抗误码,抗丢包的能力,多次编码解码后语音的质量 语音编码质量评价(一) 可懂度评价:判断韵字测试,改进韵字测试 音质评价:MOS(Mean Opinion Score), DMOS(Degradation MOS) 语音编码质量评价(二) 时域测度
文档评论(0)