- 1、本文档共80页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3章节 音频信息处理
第3章 音频信息处理 ;;3.1.1 音频信号的特点; 规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。因声波是在时间和幅度上都连续变化的量,我们称之为模拟量。;2.模拟音频信号的两个重要参数;3. 声音的A/D与D/A转换 ;4. 声音的三要素 ; 2)音色:即特色的声音。声音分纯音和复音两种类型。所谓纯音,是指振幅和周期均为常数的声音;复音则是具有不同频率和不同振幅的混合声音。大自然中的声音绝大部分是复音。在复音中,最低频率的声音是“基音”,它是声音的基调。其他频率的声音称为“谐音”,也叫泛音。基音和谐音是构成声音音色的重要因素。各种声源都具有自己独特的音色,例如各种乐器的声音、每个人的声音、各种生物的声音等,人们就是依据音色来辨别声源种类的。 ;声音的频谱有线性频谱和连续频谱之分。线性频谱是具有周期性的单一频率声波;连续频谱是具有非周期性的带有一定频带所有频率分量的声波。纯粹的单一频率的声波只能在专门的设备中创造出来,声音效果单调而乏味。自然界中的声音几乎全部属于非周期性声波,该声波具有广泛的频率分量,听起来声音饱满、音色多样且具有生气。 ;3.1.2 模拟音频的数字化过程 ; 信息论的奠基者香农(Shannon)指出:在一定条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的基本内容。 为实现A/D转换,需要把模拟音频信号波形进行分割,这种方法称为采样(Sampling)。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率是指计算机每秒钟采集多少个声音样本。 ; 采样只解决了音频波形信号在时间坐标(即横轴)上把一个波形切成若干个等分的数字化问题,但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为“量化”。 量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。如何分割采样信号的幅度呢? 我们还是采取二进制的方式,以8位(bit)或16位(bit)的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中,其纵轴将会被划分为个量化等级,用以记录其幅度大小。;; D/A转换器从上图得到的数值中重构原来信号时,得到下图中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线与原波形(红色线)相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。 ; 失真在采样过程中是不可避免的,如何减少失真呢?可以直观地看出,我们可以把上图中的波形划分成更为细小的区间,即采用更高的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。在下图(左)中,采样率和量化等级均提高了一倍,分别为2000次/秒和20个量化等级。在下图(右)中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个量化等级。从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。;3. 编码 模拟信号量经过采样和量化以后,形成一系列的离散信号——脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据。所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可加以纠正。 编码的形式比较多,常用的编码方式是PCM——脉冲调制。脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调制方式,即把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储。;3.1.3 数字音频的文件格式 在多媒体技术中,存储音频信息的文件格式主要有:WAV文件、VOC文件和MP3文件等。
1. WAV文件 WAV文件又称波形文件,来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值轮换成二进制数,然后存入磁盘,这就产生了波形文件。WAV文件用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持。; WAV声音文件是使用RIFF(Resource Interchange File Format资源交换文件)的格式描述的,它由文件头和波形音频文件数据块组成。文件头包括标志符、语音特征值、声道特征以及PCM格式类型标志等。WAV数据块是由数据子块标记、数据子块长度和波形音频数据3个数据子块组成。
文档评论(0)