- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章 音频数据处理;目录 Contents;目录 Contents;音频、数字音频技术概述;数字音频技术的进步主要基于以下三项技术:
数字信号处理理论和技术
数字电子学和计算机技术
人类听觉感知模型
数字音频技术和其它消费电子学的最主要的差别,体现在尽量利用听觉机理开发各种模型,实现音频工程和人类音频主/客观感知评价的融合。
数字音频应用系统发展为多抽样率、自适应和非线性的处理技术。
通过和人类感知的结合,数字音频技术利用听觉感知的非线性和多维模型,极大地扩展和丰富了相关的研究领域。;目录 Contents;人类的听觉感知;所谓听觉感知,就是指将听到的声音经过大脑的处理后变成确切的含义。
人耳由外耳、中耳和内耳三部分组成,其中外耳、中耳和内耳的耳蜗部分是听觉器官。外界的声波振动鼓膜,引起耳蜗的外淋巴和内淋巴的振动,使得耳蜗的听觉感受器(毛细胞)受到刺激,并将声音刺激转化为神经冲动,由听神经传导到大脑的听觉中枢,从而形成听觉。;声音信号由包含许多频率成分的谐波组成,人耳对于不同频率的纯音具有不同的分辨能力。
响度级是反映人耳主观感受不同频率成分的声音强度的物理量。
响度级单位为方(phone),在数值上1方等于1kHz的纯音1dB的声压级,人耳的听阀对应于零方的响度级。
听阀值和响度级随着频率的变化而变化。
人耳感知的声音响度是频率和声压级的函数。
比较不同频率和声压级的声音可以得到主观等响度曲线。
;人耳的听阀和响度;掩蔽现象指在一个较强的声音附近,相对较弱的声音不被人耳觉察,也就是让强音所掩蔽。
其中较强的声音称为掩蔽音,较弱的声音称为被掩蔽音。
掩蔽音有三种类型:纯音调、宽带噪声和窄带噪声,不同掩蔽音和被掩蔽音的组合有不同的掩蔽效果,它们的掩蔽阀值曲线形状有着相似之处。
掩蔽效应分为同时掩蔽和异时掩蔽,而异时掩蔽又分为前掩蔽和后掩蔽两种,同时掩蔽又称为频域掩蔽。
在同时掩蔽中,掩蔽音对相邻频率的影响范围和程度,和掩蔽音本身位于哪个临界频带有关。
不同临界频带内的掩蔽音,对同一频带内的其它信号或相邻频带内的信号,会有不同的掩蔽效果。
;掩蔽效应;目录 Contents;音频信号分析和编码;在音频信号短时平稳的假设条件下,对音频信号需要进行加窗处理。
窗函数平滑地在音频信号上滑动,将音频信号划分为连续或者交叠分段的帧。
音频信号的时域分析:
窗口的形状非常重要,矩形窗的谱平滑性较好,但是波形细节丢失,并且会产生泄漏现象。
汉明窗可以有效地克服泄漏现象,应用范围最为广泛。
窗口长度的选择需要根据音频信号的时变特性来调整。;窗函数的衰减基本上与窗的持续时间无关,改变窗函数的长度时,只会使带宽发生变化。
音频信号的时域特征包括短时能量、短时平均过零率、短时自相关系数和短时平均幅度差等。
短时平均幅度的计算公式为:
其中窗函数为汉明窗,其计算公式为:
;主要的频谱分析方法包括短时傅立叶变换、短时离散余弦变换和线性预测分析。
非线性系统分析非常困难,需要将非线性问题转化为线性问题来处理。
加性信号满足广义叠加原理,这样的信号组合可以用线性系统来处理,然而,对于乘性或卷积性组合信号,必须用满足组合规则的非线性系统来处理,对信号进行同态分析。
音频信号可以看作是激励信号与系统响应的卷积结果,对其进行同态分析后,将得到音频信号的倒谱参数,因此同态分析又成为倒谱分析。;信号的时频表示方法主要包括线性时频表示类、二次时频表示类和其它形式的时频表示方法,最常用的两种线性时频表示方法包括Gabor变换和小波变换。
语谱图能更好的表达随时间变化的不同频率的震动强度,比振幅数据而来,数据更为稳定,方便计算处理。;数字编码技术针对数据量巨大的信号所面临的传输和存储的问题,利用信息冗余来实现数据压缩。
对数字音频信息进行压缩通常用如下6个属性来衡量:比特率、主观/客观的评价质量、计算复杂度和存储需求、延迟、对于通道误码的灵敏度以及信号带宽。
音频信号存在着多种时域冗余和频域冗余,人耳的掩蔽效应等听觉机理,也能够用来对音频信号进行压缩。
数字音频编码方法主要包括波形编码、参数编码和基于听觉感知的混合编码等。
;为了组合不同的数字媒体,目前的多数数字编码格式都须符合一定的规范,以实现流媒体格式的有效转换。
利用多媒体容器(Multimedia Container)进行多媒体数据的封装。常见的多媒体容器包括AVI、MPEG、OGM和Real-media等。
利用多媒体容器的文件格式,对流媒体数据进行解析,为不同的应用提供素材。
国际电报电话咨询委员会(CCITT)和国际标准化组织(ISO)等组织先后提出了一系列有关音频编码的建议,根据标准制订者和开发者的不同,这些编码技术主要归为以下几类:MPEG 系列、DVD系列、G.7XX系列、Windows Media
您可能关注的文档
- 信息技术基础-Office-2010实用案例教程教学课件-第3章职业生涯规划文档制作.pptx
- 信息检索与运用PPT课件(共8章)第三章-淡墨留香的知识典藏---纸质文献检索.pptx
- 信息内容安全管理及应用教学课件(共12章)第1章.pptx
- 信息内容安全管理及应用教学课件(共12章)第2章.pptx
- 信息内容安全管理及应用教学课件(共12章)第3章.pptx
- 信息内容安全管理及应用教学课件(共12章)第11章信息过滤.pptx
- 信息内容安全管理及应用教学课件(共12章)第12章.pptx
- 信息内容安全管理及应用教学课件(共12章)第八章基于深度学习的图像处理.pptx
- 信息内容安全管理及应用教学课件(共12章)第九章深度网络自然语言处理.pptx
- 信息内容安全管理及应用教学课件(共12章)第六章图像处理特征抽取.pptx
- 信息社会责任概念介绍.pptx
- 信息素养概念介绍.pptx
- 行业会计比较教学课件(共8单元)项目1-行业、行业会计及比较.pptx
- 行业会计比较教学课件(共8单元)项目2-农业企业会计.pptx
- 行业会计比较教学课件(共8单元)项目3-商品流通企业.pptx
- 行业会计比较教学课件(共8单元)项目4-旅游饮食服务企业会计.pptx
- 行业会计比较教学课件(共8单元)项目5-交通运输企业会计.pptx
- 行业会计比较教学课件(共8单元)项目6-建筑安装企业会计.pptx
- 行业会计比较教学课件(共8单元)项目7-房地产开发企业会计.pptx
- 行业会计比较教学课件(共8单元)项目8-金融保险企业会计.pptx
最近下载
- 如何开好早会..ppt VIP
- 《机械基础》课件 孟莹 单元1--4 静力学--- 螺纹连接与螺旋机构.pptx
- 靶向二代测序在感染性疾病诊疗中的规范化应用专家共识解读PPT课件.pptx VIP
- 可编程控制器应用技术第2版[西门子S7-1200](PLC)高职全套教学课件.pptx
- 国外矿产勘查报告规范要求.pptx VIP
- 国外矿产勘查报告规范要求.pptx VIP
- 自考 新思想学习资料 15040新思想 主观题.pdf VIP
- 郑功成“社会保障学”名词解释.pdf VIP
- 《PLC应用技术(西门子上册)第2版》中职技工全套教学课件.pptx
- 澳大利亚矿产资源和矿石储量报告规范JORC2004(中文版).doc VIP
文档评论(0)