多媒体计算机的声音信息处理.docVIP

下载本文档

34
0
约1.09万字
约 14页
2017-06-08 发布于北京
举报
版权申诉

多媒体计算机的声音信息处理.doc

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多媒体计算机的声音信息处理

第四章多媒体计算机的声音信息处理 4.1 数字化声音信息的获取一、声音多媒体计算机中由于增加了音乐、解说和一些有特殊效果的声音，这就使多媒体应用程序显得丰富多彩，充满活力。声音(Sound)是文字、图形之外表达信息的另一种有效方式。从物理学角度来认识，空气振动而被人们耳朵所感知就是声音。通常，声音用一种连续的随时间变化的波形来表示，该波形描述了空气的振动(图4.1) 图4.1 声音的波形表示从图中可以看出，波形的最高点或最低点与基线(时间轴)之间的距离称为该波形的“振幅”。振幅表示声音的音量。波形中两个连续波峰间的距离称为“周期”，波形的“频率”是1秒钟内所出现的周期数目，单位是赫兹(Hz)。声音按其频率的不同可分为次声、可听声和超声三种。次声的频率低于20Hz，它是一种人耳听不见的声音。或听声的频率在20-20000Hz之间，这是人耳可感受的声波。超声的振动频率高于20000Hz，也是人耳听不见的声波。多媒体计算机中处理的声音信息主要是指可听声，所以也叫音频信息(Audio)。从应用的角度来说，多媒体计算机中的声音可分为三类：一类是语言(语音)，它的作用与文字信息一样，输出的语言可作为解释、说明、叙述、回答之用，输入的语言可做命令、参数或数据。第二类是音乐、音乐的播放可烘托气氛、强调应用程序的主题。第三类是效果声(Sound Efect)，例如括风、下雨、打雷、爆炸等，它们在特写的场合下起到文字、语言等无法代替的作用。多媒体计算机中发出的声音有两种来源。一是获取法，即利用声音获取硬件将指定的声音源所发出的声音转换成数字方式并经过编码后保存下来，输出时再进行解码和数模转换，还原成为原来的波形。另一种是合成法，计算机通过一种专门定义的语言去驱动一些预制的语言或音乐的合成器，借助于合成器产生的数字声音信号还原成相应的语言或音乐。合成法的优点是数据量大大减少，特别是音乐的合成技术上已很成熟，这在下面第三节进行介绍。二、声音信息的数字化声音信息的计算机获取过程主要是进行数字化处理，因为只有数字化以后声音信息才能像文字、图形信息那样进行存贮，检索、编辑和各种处理。声音信息的数字的数字化过程通常如图4.2所示。图4.2 声音信息的数字化采样指的是以固定的时间间隔对波形的值进行抽取。如果以Xa(t)表示声音的连续波形，则采样后得到的是一个离散的序列X(n)。如果以T作为时间间隔(称为采样周期)，则采样后得到的声音信号序列为： X(n)＝Xa(nt) n＝1，2，3，.... 序列中的每一个信号，称为“样本”。采样后得到的样本，其数值仍然是模拟量。采样过程最重要的参数是采样频率。采样频率越高，声音保真度越好，但要求的数据存贮量也就越大。理论研究表明，采样频率为声音信号的最高频谱分量的两倍时，即可不失真地还原了原始声音信号，若超过此采样频率，则就包含某些冗余信息；若低于此频率，则产生失真。实验表明，使用8KHz采样频率时，人们讲话所产生的语言信号的处理已可以基本满足要求了。多媒体计算机在声音信号获取时，采样频率通常可以有三种选择，它们是；44.1KHz，22.05KHz和11.025KHz。声音信息数字化的第二步处理是量化，即把每一个样本值X(n)从模拟量转换成为数字量，该数字量用n个二进位表示，精度是有限的。n越大，量化精度越高，反之量化精度降低。若量化过程用Q表示，量化后的样本用x＾(n)表示，则量化过程可表示为： x＾(n)＝Q「X(n)」 n＝1，2，3，.. 量化误差可以定义为： e(n)＝x＾(n)-X(n) n＝1，2，3，.. 显然，不论量化精度有多高，量化过程必定会引入一定的误差，这些误差是量化时数的截尾和舍入所引起的。由于量化误差的存在，当数字化的声音还原成模拟量的波形输出时，必然会产生一定的噪声，这称为量化噪声。但是，只要选择适当的量化精度，量化噪声可以控制在人耳感觉不出的程度。多媒体计算机中声音的量化精度一般有两种：8位和16位。前者是将样本划分为256等份，后者则分为65536等份。任意一个特定的样本值经过量化后只能是256(或65536)个不同结果中的某一个，量化精度分别为2-8或2-16。计算机中的后有信息都是以二进制形式进行存贮、传输和处理的。经过采样和量化后所得到的数字