多媒体技术音频处理解析.pptVIP

  • 174
  • 0
  • 约1.99万字
  • 约 84页
  • 2016-04-09 发布于湖北
  • 举报
第4章 音频处理 第4章 音频处理 音频信号 音频数字压缩 MPEG-1音频 MPEG-2音频 MPEG-4音频 电子音乐合成与MIDI 语音识别 3D音频 音频应用 声音是指人耳能识别的音频信息. 如人发出的话音,乐器声,动物发出的声音,机器产生的声音,自然界的雷声,风声、雨声、闪电声等,也包括各种人工合成的声音。 声音涉及到声波的物理传播特点和电声信号处理技术。多媒体技术的发展使计算机处理音频信息已达到较成熟的阶段。 声音的特征指标 声音是由于空气振动引起耳膜的振动,由人耳接收,最后被大脑所感知。因此,声音的特征体现为物理特征和认知属性。这两类特性的基本对比见表: 频率特性 如果一个物体振动所发出的泛音为基音的整数倍,这个音就会具有清晰可辨的音高,我们称之为乐音,如钢琴,小提琴等发出的都是乐音;如果泛音是基音的非整数倍,这个音就不具备清晰可辨的音高,我们称之为噪音,如汽车发动机、计算机风扇等发出的都是噪音。 音色 因为声音的波形绝大多数都不是简单的正弦波,而是一种复杂的波。分析表明这?种复杂的波形,可以分解为一系列的正弦波,这些正弦波中有基频f0,还有与f0成?整数倍关系的谐波:f1、f2、f3、f4,它们的振幅有特定的比例。这种比例,赋予?每种乐器以特有的“色彩”—音色。如果没有谐波成分,单纯的基音正弦信号是?毫无音乐感的。 比如:大提琴音色、黑管音色不同 虽然演奏同一音高(基频)的音符,但人们能够明确分辨出是哪个乐器 频率特性 带宽:用来描述复合声音信号的频率范围。如高保真音信号(high-fidelity audio)的频率范围为10Hz~20,000Hz,带宽约为20kHz 其他音频质量指标 感觉上的、主观上的测试是评价声音质量不可缺少的部分。 可靠的主观度量值是较难获得的。 听觉生理 人耳最容易听到的就是4000Hz的频率,不管频率是增高或降低,即使是响度相同的情况下,大家都会觉得声音在变小。 当响度降到一定程度时,人耳就听不到了,每一个频率都有着不同的值,当频率超过15000Hz时,人耳的会感觉到声音很小, 很多听觉不是很好的人,根本就听不到20000Hz的频率,不管响度有多大。 当人耳同时听到两个不同频率、不同响度的声音时,响度较小的那个也会被忽略 声音质量与数据率 数据率 = 取样频率 x 量化位数 x 通道数目 例: 电话语音 =8k x 8b x 1 = 64kbps =8kB/s=28MB/h 例:CD的数据率 44.1KHz, 16bits, 2, MPEG-4 ALS 2005年7月形成了MPEG-4 ALS的最终规格,并被国际标准组织接纳成为标准ISO/IEC 14496-3:2005/Amd 2:2006 Audio Lossless Coding (ALS) MPEG-4 ALS 同时面向专业应用和消费应用而定义了高效、快速的无损音频压缩技术。它提供了许多其它无损压缩方案所缺乏的特性: 对几乎所有未压缩数字音频格式的通用性支持,包括wav、aiff、au、bwf以及raw格式; 支持PCM格式音频最大采样位数32位以及任意采样频率的任意组合,包括最常见的 16位/44.1kHz、16位/48kHz、24位/48kHz、24位/96kHz和24位/192kHz; 支持多声道/多音轨,最高支持65536个声道,包括5.1环绕方式; 支持32位IEEE浮点数音频数据; 可快速地随机访问已编码数据的任何部分; 可选择以MP4文件格式保存,支持与视频复合。 高度灵活的编解码参数,可适应各种场合的应用。 困难与对策(续) 语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。 对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。 语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术细节要解决。 为了解决这些问题,研究人员提出了各种各样的方法,如自适应训练,基于最大互信息准则(MMI)和最小区别信息准则(MDI)的区别训练和“矫正”训练;应用人耳对语音信号的处理特点,分析提取特征参数,应用人工神经元网络,等等。所有这些努力都取得了一定成绩。 综合应用语言学、心理学、生理学以及信号处理等各门学科有关知识,只用其中一种是不行的。 WAVE格式 在Windows平台下,基于PCM编码的WAV是被支持得最好的音频格式,所有音频软件都能完美支持,

文档评论(0)

1亿VIP精品文档

相关文档