PESQ及其应用-中文.pdfVIP

  • 45
  • 0
  • 约4.16千字
  • 约 3页
  • 2019-09-17 发布于辽宁
  • 举报
PESQ及其应用 作者:解放军理工大学通信工程学院,赵斐,徐勇,成立新 摘要:本文介绍了基于听觉模型的PESQ(Perceptual evaluation of speech quality) 客观音质评价方法。它适用于更宽的网络环境,包括模拟连接、编解码、包丢失和时延变 化。 关键词:感知模型;汉语单字;清晰度 1. 引言 目前能提供主客观相关性较高的音质客观评价方法,都是考虑了人耳的听觉特性,使 用听觉感知模型来模拟收听这一过程的。因此当前的主流是使用感知模型来评估非线性和 易出错的音频通信系统。 感知语音质量测度(PSQM),在1996 年被国际电联ITU-T 采纳为P.861 建议,1998 年,一个基于归一化块测度(MNB)的可选系统作为附件添加到P.861 中。MNB 是在考虑听 过程的基础上,采用MNB 方法来模拟人的判断过程,评价结果与主观评价值相关度较 高。Hollier 扩展了巴克谱失真(BSD)模型,引领了感知分析测度系统(PAMS)的发展。 PAMS 是第一个关注端到端行为,包括滤波和变化时延造成的影响的模型。这些影响,再 加上一定类型的编码失真、包丢失和背景噪声,就是引起BSD,PSQM 和MNB 等早期模 型产生不精确得分的原因。因此ITU-T 12 研究组进行了一项实验来找到一种新的模型,以 期能适应更广泛的编解码器和网络情况,具有更好的性能和表现。在比较中,PAMS 和 PSQM99(PSQM 的更新和扩展版本)两种算法的性能最好,然后就结合了这两种算法产生 了一个新的模型,叫做PESQ。2001 年2 月PESQ 被定为P.862 建议。 2. PESQ算法的描述 图1 PESQ 模型的结构图 图1 为PESQ 的结构。开始时两个信号都通过电平调整,再用输入滤波器模拟标准电 话听筒进行滤波(FFT)。这两个信号要在时间上对准,并通过听觉变换。这个变换包括对系 统中线性滤波和增益变化的补偿和均衡。提取出两个失真参数,在频率和时间上总和起 来,映射到对主观平均意见分的预测。 2.1 电平调整和IRS滤波 各个待测系统的增益一般差别比较大,而且对参考信号没有确定的校准电平,所以有 必要将二者调整到统一、恒定的电平上来。PESQ 假定主观听觉级是79dB 的常数。感知 模型必须考虑人听到的实际声音,所以不管真正的主观测验中是否使用IRS 或改进的IRS 滤波,在PESQ 中使用了类IRS 滤波器,起到一个模拟电话手柄的作用。 2.2 时间对准 PESQ 的时间对准假设系统的时延是分段恒定的。这个假设对广泛的系统,包括基于 包传输的VoIP ,都是合适的。在静默期间和说话期间时延可以改变。信号对准有以下步 骤: 1. 信号通过窄带滤波,突出对感知重要的部分。这些滤波后的信号只用于时间对 准; 2. 基于包络的延时估计; 3. 把参考信号按话语分成段; 4. 对每一段进行基于包络的延时估计; 5. 对每一段话语进行基于柱状图的、精细的、互相关的延时验证; 6. 对于说话中的延时改变进行话语分解(splitting)和重定位。 对每一段话语都给出延时估计,然后得出听觉变换要用的一帧一帧的延时。 2.3 听觉变换 PESQ 中的听觉变换是一个生理声学模型,它把信号变换到时频可感知的响度表达。 包括以下步骤: 1. 巴克谱加汉明窗 用FFT 计算每一帧的瞬时功率谱,每帧重叠50%,即32ms。 2.频率补偿 计算有效话音帧的平均巴克谱值。假设待测系统有恒定的频率响应,参考话音和失真 话音间的比率就给出传输函数估计。参考话音使用这个估计值补偿到和失真话音相当,补 偿最多不超过±20dB 。 3. 增益变化的补偿均衡 短时增益变化通过一帧一帧的处理基音功率密度得到部分补偿。每一帧中,计算所有 超过听觉门限的基音功率密度值。得到参考信号和失真信号的比值(3×10-4),比值通过一 阶低通滤波器滤波,每一帧的失真信号乘以这个功率比,补偿到和参考信号相当。 4. 响度映射 巴克谱映射到响度级(宋),包括一个频率门限和指数。这样在每一时频单元给出感受 到的响度。 5. 干扰密度的计算 参考信号与失真信号间的绝对差值给听觉误差一个测度。在PESQ 中,

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档