声音信号处理基本原理.doc

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
声音信号处理基本原理 一、声音信号之特性 声音是一维信号研究的重要对象,最常见的传播声音的介质是空气,声波和电磁波有很大的不同,例如声波的速度显然比光波慢的多,声音传播的速度与介质的性质和温度有关,例如在空气温度为 0 度时,声波的速度为 331.5m/s,如果空气温度每升高 1 度时,则声音传播的速度约增加 0.6m/s。电磁波是利用电磁感应的方式来传播,而声波的传播方式则通常是机械式的,当介质如空气受到某处震源的压迫时,被压迫的空气分子,就对其平衡位置产生位移,并引起附近空气分子也对其平衡位置产生位移。如所受的压迫是周期性的,而且其频率在声波范围内,此时,空气中就产生声波。 声波通常是指振动频率在人能感应范围以内的波动,称为可闻波 (Audiblesound)。当频率高于可闻声时称超音波 (Ultrasound),其能量较高,一般可用于医学或工程之检测或塑料等材料加工,至于频率比可闻波低时称为低音波 (Infrasound),例如地震所引起的地震波。 至于目前声音信号与数字信号处理关系最大的,首推通信方面,由于多媒体信息普及,其数据内容除了文字就是图片与声音,尤其是结合数字电子声音技术的因特网电话,它利用数字信号处理将语音加以数字化压缩,转成数据的形式之后再用线路一部分的频宽移作声音传送,透过因特网传送到通话的彼端,再解压缩回复成为原来的声音,在现在的计算机配备中,计算机音效早已从以往的 PC 喇叭变为 Adlib 卡、声霸卡等输入及输出的装置,因此使得因特网电话出现广泛的热潮﹐目前已有在网络上面点播歌曲的应用案例。一般电话的语音与电视讯号都是模拟的形式﹐不经过压缩与编码就能传送,但是在频宽与多任务能力方面却远不如因特网﹐因此数字信号处理将掀起未来通信方面的革命。 数字电子声音技术中有一项很重要的工作就是编码的方法,常见的编码方法为脉波码调制 (pulse code modalation; PCM) 及高阶脉波数字码调制 (advanced pulse code modulation; ADPCM),目前像雷射唱盘、数字录音带、通信卫星、电话通信,都是各式各样的 PCM 技术应用的具体例子。影响 PCM 的效果的一个因素一为取样频率,一为取样位数,由于这两者其值大小都与人类的听觉与语音能力有关,因此我们先介绍人耳及嘴唇方面的特性。 二、人耳及嘴唇方面的特性 如果我们把人类的语音转到频谱上来分析,可以看到在频谱上人类语音信号大都集中于某一个区段有较高的能量,这也意味着这个能量较高的频带就是人类声腔的共鸣区域,我们通常称这个频带为基本频率(fundamental frequency),每个人的基本频率因为天生的口腔结构而有所不同,通常小孩子的基本频率在 250~400HZ 左右,而成年女子约在 200~300HZ左右,而成年男子则约在 100~150HZ 左右,因此男高音较为少见,也就是这个原因。 当人类发出声音时,如果有利用到声带振动来发音,则称为有声音(Voiced Sound),否则称之为无声音 (unvoiecd sound),而语音中又可分为具有稳定声道激发共鸣振动及音源振动变化较多较杂乱的子音。 对人类耳朵而言,而够接受的音频范围很窄,大约在10Hz到20 KHz左右,而其中在 1.2 KHz 到 1.4 KHz 左右是听觉最敏锐的频带,而在此频带之前,人耳对较低的频率并不敏感,随着频率越高,人耳便越听得清楚,亦即人耳对高频的声音有自动增益的效果 (AGC)。因此如果我们用手来回挥动空气,如此低频的振荡,是无法发出人耳可以发觉的声音,除非我们鼓掌,在拍手的过程中,两手迅速的撞系并将空气挤压出去,这种较短的脉冲式振动,其中包含了高频的空气振动,因此人耳便能够听到拍手的声音。 相对的人的嘴唇构造却较无法发出高频的声音,随着发出的声音频率越高,嘴中所发出的强度即随之而减弱,因此当我们在作语音信号取样时,并不需要将取样频率取得太高,一般而言,使用 11 KHz 即告足够,因为语音中高频的部份很少,声音的变化不快,但音乐就不同了,音乐数据变化性通常很大,一般取样频率是使用 22KHz,如此重新放出来时人耳听来才不致有失真的感觉。 三、声音讯号数据之取样量化 当声音讯号数据之取样量化的位数为 80 时,可以得到 256 个音阶,而取样位数为 16 时,则拥有 65536 个音阶,较高的取标频率与较多的取样位数意谓着较高的质量,但同样的也表示较昂贵的装备和较大的记备空间。 对语音而言,使用 8 KHz 取样频率, 4 bit 取样位,记录一分钟语音再予压缩后大约要花掉 62 KB 的内存。对收音机的声音而言,使用 11 KHz 取样频率记录一分钟则占用 322 KB 的内存,而记录调幅合成日时,使用 22 KHz 取样频率,则

文档评论(0)

shaoye348 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档