- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
波形音频
第四章 多媒体音频 4.1 多媒体音频 实验 4.1.2 声卡 语音识别技术的应用 语音识别的困难 在连续语音中,词与词之间没有明显的停顿间隙,词与词之间的分割困难 ; 每一个基本的声学识别单元(如音素)受前后音素发音方式的影响(称为交调),而使语音声学信号的特征变得不稳定; 不同人或不同的心理和生理以及在不同的说话环境,即便说同一个词,声学信号特征也会发生变化; 一个词的读音不仅包含了与词义有关的特征,而且还包含了说话人的性别、年龄、情绪等大量与词义无关的信息,而后面这些信息对语音的识别造成了干扰,而且把这些互不相关的信息分离开比较难; 自然语言的多变性难以借助一些基本的文法规则进行描述,从而使计算机的编程产生困难。 语音合成技术 4.1.3 音频文件的格式 Wave文件:WAV格式也称为波形文件,是最常见的声音文件之一。WAV是微软公司专门为Windows开发的一种标准数字音频文件,该文件能记录各种单声道或立体声的声音信息,并能保证声音不失真。但WAV文件对存储空间需求太大,不便于交流和传播,因此常用于短时间的录音。 MIDI文件:它是国际MIDI协会开发的乐器数字接口文件,采用数字方式对乐器所演奏出来的声音进行记录(每个音符记录为一个数字)。在MIDI文件中,只包含产生某种声音的指令,这些指令包括使用MIDI设备的音色、声音的强弱、声音持续的时间等,计算机将这些指令发送给声卡,声卡按照指令将声音合成出来,因而占用的磁盘空间非常小。其扩展名为 .MID。MIDI文件只适合于记录乐曲,而不适合对歌曲进行处理。 MPEG音频文件 MPEG是运动图像专家组(Moving Picture Experts Group)的英文缩写,代表MPEG运动图像压缩标准。包括MPEG视频、MPEG音频和MPEG系统(视音频同步)三个部分。 这里的音频文件格式指的是MPEG标准中的音频部分。其特点是能以较小的比特率、较大的压缩率达到近乎完美的CD音质。 MPEG音频压缩的原理很简单,首先是利用编码技术,将源文件(多为WAV格式)重新进行编码压缩,其次是利用数据缩减,将人类听觉中的不敏感部分删除,从而达到缩小文件尺寸的目的。和所有压缩格式一样,MPEG也会造成声音的失真,所以根据需要的不同,人们又定义了不同的压缩比率,这就是MPEG压缩格式的由来。 关于MPEG4、 MPEG5 MP4最初是指继MP3之后出现的一种音频格式,采用以MPEG-2AAC为基础的音频压缩技术。每首MP4乐曲是一个扩展名为“.exe”的可执行文件,内嵌播放器,直接双击就可以播放。与MP3相比,MP4文件的大小仅为MP3的70%左右。 视频MP4格式:MPEG-4 RealAudio文件: RealAudio是RealNetworks公司开发的一种流式音频文件格式,压缩比可高达1:96。主要用于在低速率的广域网上实时传输音频信息。网络的连接速度不同,客户端所获得的声音质量也不尽相同(对于28.8Kbps的连接,可以达到广播级的声音质量;如果拥有更快的线路连接,则可以获得CD音质的声音)。其扩展名为.RA/.RM/.RAM Windows Media Audio文件:这是微软推出的与MP3格式齐名的一种新的音频格式。WMA格式在压缩比和音质方面都超过了MP3,支持音频流技术,适合在网络上在线播放,其扩展名为 .WMA/.ASF/.ASX/.WAX AIFF文件:AIFF是音频交换文件格式,是苹果计算机公司开发的一种声音文件格式,主要用于苹果电脑平台下音频原始素材的保存。其扩展名为.aif/.aiff。 Audio文件:它是Sun Microsystems公司推出的一种经过压缩的数字声音格式,主要用于UNIX系统和Java平台上,支持多种压缩方式,也是Internet上常用的声音文件格式。其扩展名为.au Voice文件: Voice文件是Creative Labs(创新公司)开发的声音文件格式,多用于保存Creative Sound Blaster(创新声霸)系列声卡所采集的声音数据,被Windows平台和DOS平台所支持,其扩展名为.VOC,主要用于DOS游戏 。 CD-DA格式文件 :CD-DA格式是光盘数字音频文件,也就是我们俗称的CD音乐。其采样频率是44.1kHz、采样精度16位,是高质量的声音。 音频的获取方式 对音频文件的直接采用 市场上有很多的音乐光盘或声音库,直接以数字文件的格式提供给用户。 用麦克风录制声音 “录音机”是Windows系统提供的一个声音采集、处理工具,它具备基本的播放、录音和简单声音编辑等功能。 其它音频设备输入
您可能关注的文档
- 河南能源监管办持续开展支部书记带头讲党课活动.PDF
- 河南约克信息技术股份有限公司董事长任职公告.PDF
- 河口边陲的美好印象.PPT
- 河源年鉴2016篇目设置及撰稿分工-河源地情网.DOC
- 河北农业大学机电学院信号调理.PPT
- 油压机成套设备采购招标文件[NXHH-1002002] - 宁夏华辉活性炭.DOC
- 油水分离处区改善案-唐荣铁工厂.DOC
- 沥青基短切碳纤维表面改性及与纳米填料并用对天然橡胶力学性能的.PDF
- 油路控制系统的改进设计-青岛大学学报.PDF
- 油压机的伺服改造节能技术-清洁生产伙伴计划.PDF
- 福莱特玻璃集团股份有限公司海外监管公告 - 福莱特玻璃集团股份有限公司2024年度环境、社会及管治报告.pdf
- 广哈通信:2024年度环境、社会及治理(ESG)报告.pdf
- 招商证券股份有限公司招商证券2024年度环境、社会及管治报告.pdf
- 宏信建设发展有限公司2024 可持续发展暨环境、社会及管治(ESG)报告.pdf
- 品创控股有限公司环境、社会及管治报告 2024.pdf
- 中信建投证券股份有限公司2024可持续发展暨环境、社会及管治报告.pdf
- 洛阳栾川钼业集团股份有限公司环境、社会及管治报告.pdf
- 361度国际有限公司二零二四年环境、社会及管治报告.pdf
- 中国神华能源股份有限公司2024年度环境、社会及管治报告.pdf
- 广西能源:2024年环境、社会及治理(ESG)报告.pdf
文档评论(0)