第4章 多媒体音频信号处理 多媒体技术 知识基础及应用 .pptVIP

第4章 多媒体音频信号处理 多媒体技术 知识基础及应用 .ppt

  1. 1、本文档共77页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第4章 多媒体音频信号处理 多媒体技术 知识基础及应用 .ppt

10H~11H 2B 整数 文件标志 12H~13H 2B 整数 目前为1 14H~15H 2B 整数 声道数 16H~19H 4B 长整数 采样率 1AH~1DH 4B 长整数 每秒平均字节数 由表4-4可见,WAV语音文件头也是对文件设置了一些标志并确定了对语音信号的采集速率。单声道语音信号用11.025 kHz的采样率采样,采样值为8 bit二进制编码,双声道语音信号用44.1 kHz采样率采样,即左右声道各为22.05 kHz采样,每声道采样值用8 bit二进制编码表示,这样一来,每个语音采样值要用16 bit表示,且高8位放左声道的数据,低8位放右声道的数据。具体数据块的存放情况如表4-5所示。 表4-5表明,数据块紧跟在文件头的后面,其偏移地址从1EH开始,前面是数据块的标志和数据块的总长度。从偏移地址26H开始存放语音数据。 表4-5 WAV文件中的数据块存放 偏移地址 字节数(B) 类型 内容 1EH~21H 4B 字符 ‘data’ 22H~25H 4B 长整数 采样数据总字节数 ??26H~ … 8位整数 采样数据 以上我们简单地介绍了两种语音文件VOC和WAV。前者是我们在本章后面要介绍的声霸卡所形成的文件格式,后者是Microsoft的语音文件格式。在实际应用中,经常需要知道这些语音文件的格式,而且也经常会遇到由WAV文件向VOC文件的转换或由VOC文件向WAV文件的转换。所幸的是这两种文件的相互转换已有现成的程序可供调用,这就省了许多麻烦。使用者只要用一条简单的命令即可方便地完成它们之间的相互转换。但是,由于两种文件的复杂性,在利用软件命令进行两种文件格式转换时,应注意,WAV文件只支持11.025 kHz、22.05 kHz和44.1 kHz采样率,因此,在形成VOC文件时也要采用这样的采样率才能顺利地进行相互转换。 VOC文件中可包括多个数据块,而WAV文件只支持一个数据块,且只能用一种采样速率播放出来。因此,在WAV和VOC文件相互转换时,只能是功能强的VOC文件来适应WAV文件的规定。 同时,WAV文件不支持压缩文件,因此,当VOC文件向WAV文件转换时,VOC文件中的压缩数据块将被忽略。 3. AU声音文件格式 AU文件是使用于UNIX操作系统下的一种波形文件。其格式如表4-6所示。 表4-6 AU文件格式 偏移量 内 容 偏移量 内 容 0~3 AU文件标志 16~19 数据采样频率 4~7 文件头长度 20~23 声道数N(1为单声道、2位双声道) 8~11 数据长度 24~(x–1) 附加描述信息(其中x为文件头长度) 12~15 波形格式文件 x~ 声音数据 4. MID文件格式 MID文件是一种记录数字化音乐的MIDI文件,由一个文件头块和多个音轨块组成。文件头块记录了MIDI文件的描述信息,而音轨块记录了MIDI通道的数据流信息。文件头块和音轨的格式分别如表4-7和4-8所示。 表4-7 MID 文 件 头 偏移量 内 容 0~3 MID文件头标识 4~7 文件头块长度 8~15 记录格式。格式0:文件由包含所有16个通道数据的一个音轨组成。格式1:文件由一个或多个同步的音轨组成。格式2:文件由一个或多个独立的音轨组成 16~17 音轨号 18~19 时间分割,规定了形成1/4音符节拍的时间长度 表4-8 MID 音 轨 偏移量 内容 偏移量 内容 0~3 MID音轨标识 8~ 音轨数据 4~7 音轨块长度 ? ? 4.3 话音信号的参数编码 4.3.1 话音源 通过对人的话音生成机理研究,人们认为,人的话音由声道产生,可分为浊音和清音两种类型。 1. 浊音 浊音由声带振动产生的准周期脉冲引起,每次振动使一股空气从肺部流进声道并激励声道,各股空气之间的间隔称为音调间隙或音调周期T。或者说,激励的速度就是音调。 2. 清音 清音由空气通过声道时,受声道某些部分压缩引起,较浊音更具有随机性。话音信号的频谱间隔对应音调周期T,包络信号是浊音在时域中实际波形的函数(音量大小),上限频率fm=3~4 kHz,一般取3.4 kHz,存在三个峰点F1、F2、F3,即谐振峰,话音信号的时域波形及其频谱如图4-7所示。 通过对话音信号的分析可知,同一个人的话音信号的周期T大致是不变的。 图4-7 话音信号的时域波形及其频谱 话音信号(浊音)的时域波形; (b) 话音信号(清音)的时域波形; (c) 话音信号(浊音)的频谱 4.3.2 话音参数的编码及声码器 1.参数编码 在分析合成法中,根据话音生成模型,从话音波形中提取的参数,主要有以下4种: (1) 浊音和

文档评论(0)

yuzongxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档