- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
空间音频编码及多声道音频恢复技术研究.doc
空间音频编码及多声道音频恢复技术研究
第 1 章绪论
1.1空间音频编码的发展
随着人们对视听享受要求的不断提高,3D 影音、3D 游戏、临场感通信等逐步走入人们的日常生活,由此引发三维音视频技术的研究和应用需求。空间音频信号也由最初的单声道,不断发展到立体声及面向多声道音频,带给听众身临其境的感受,从而逐渐成为新的数字音频媒体传播形式,如微信语音、会议、高清电视、远程教学等。同时由于移动通信中传输带宽的进一步限制,也推动了空间音频技术的相关研究,也使得音频产品的传播变得更加方便,由于传输带宽的限制低码率高质量的空间音频编码算法研究成为热点。音频信号由于在时域、频域中存在很大的相关性具有统计冗余的特点,所以充分利用冗余可以得到高效的压缩。由于人耳听觉的有限性,如对高频段的相位不敏感,可以采用舍弃相位信息的方法进行压缩编码。此外,我们可以利用人耳的听觉冗余性基于掩蔽效应将人耳不可感知的部分舍弃不编码。如何充分利用音频信号的统计冗余及人耳的听觉冗余性进行压缩编码成为关键点。音频压缩编码关注的问题是在一定的编码质量、编解码延时及算法复杂度的条件下,如何利用较低的编码速率进行音频压缩编码达到节省带宽的目的,或者是在一定的编码速率条件下,如何获得较好的音频重建质量,同时尽可能减少编码时延及算法复杂度。编码速率、编码质量、编解码延、算法复杂度密不可分,而且不同应用场景的要求也不同,所以音频编码会在这四个因素之间进行折中[1]。而空间音频编码在满足上述要求的同时,必须考虑到由于声道数的增多引起的重建空间信息是否准确的问题,以我们常见的立体声为例,它的压缩编码不仅要考虑到如何获得较好的音频重建质量,同时尽可能减少编码时延及算法复杂度,而且还应考虑到如何获得准确的空间信息,也就是如何获得稳定的声像信息。
.
1.2立体声编码发展现状
立体声是具有空间立体感的声音,它不但可以让人们感受到声音的音色、响度、音调外,还能感受到更加震撼的效果即三维立体感。通常所说的立体声一般是指具有两个声道的音频,如果具有更多声道例如 5.1、13.1、22.2 声道,则被称为多声道音频,但随着声道数量的增加,对音频的存储及传输要求更加严格。随着技术的发展也出现了一些编码技术,常见的立体声编码技术有 L/R(Left/Right)、M/S(Mid/Side)、强度立体声 IS(Intensity Stereo)、联合立体声 JS(Joint Stereo)、参数立体声 PS(Parametric Stereo)[8]。由于人耳对于高频段声音的相位信息不敏感,对其强度信息较为敏感,相反,对于低频段的声音信号强度信息不敏感,相位信息非常敏感。根据这一原理我们可以在高频段利用强度立体声编码,仅保留强度信号,舍弃相位信息。强度立体声编码不单独使用,一般作为联合编码的一部分,它将通过坐标轴旋转得到强度信号及残差信号进行编码。为提高压缩效率,编码时仅对强度信号及坐标轴的旋转角度进行编码;解码时,首先对旋转角度和强度信号进行解码,然后经过其逆旋转得到左右声道输出信号[10]。
..
第 2 章 空间听觉的基础理论
2.1 人耳听觉滤波器
Dolby AC-3(Dolby Surround Audio Coding-3)是杜比主流标准编码技术之一,由AC-1、AC-2 发展而来,它是基于感知编码技术利用人耳听觉特性将频带非均匀划成若干子带,并充分利用人耳掩蔽曲线进行编码。该编码技术以较低的编码速率得到高质量的音频,即它可以保证音频的高质量,并可以使得压缩率达到 10:1。AC-3 编码算法利用了自适应变换编码技术,该技术主要采用了心理声学模型、人耳掩蔽效应及其他先进的数字信号处理技术,它可以将多个声道的编码转换成单声道的编码,从而保证了低码率的传输,获得了较高的编码效率[13]。AVS-P3 是具有我国自主知识产权的音频编码标准,它是《信息技术先进音视频编码第 3 部分:音频》的内容,主要应用于移动多媒体、数字广播等领域。AVS-P3 编码算法主要综合了时频变换、线性预测、量化域方极坐标、上下文位平面解码、比特流去格式化、多分辨率综合等先进编码技术,具有高压缩比、低复杂度的特点。具体来说,编码算法首先判断输入信号的暂稳态,从而利用不同的时频映射关系进行映射,然后对频域系数进行量化并利用量化域极坐标进行变换后,经过上下文位平面编码,最后形成 AVS Audio 编码音频编码流[17]。
..
2.2 空间听觉特性
有研究表明,在高频处由耳间强度差ILD起主要作用,而在低频处耳间时间差ITD占主要地位。但ITD和ILD只能用于判断声源位置,无法判断声源稳定性及尺寸大小。为此 Blauert 提出耳间相关性 IC(Interaural Coherence)的概念,他指出 IC 与声源的
文档评论(0)