文字声音图像虚拟存储传播.ppt

下载文档 降价啦

37
0
约2.38万字
约 124页
2017-02-19 发布于河南
举报
版权申诉
保障服务

文字声音图像虚拟存储传播.ppt

1、本文档共124页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文字声音图像虚拟存储传播

第1章文本 CCD扫描仪工作原理 OCR印刷体识别手写板超文本(hypertext)的阅读方式传统的顺序式阅读——线形文本通过链接、跳转、导航、回溯等操作实现跳跃式阅读超文本采用一种网状结构来组织信息节点（node）节点包含的内容超链（hyperlink）链源（也称之为“锚”）链宿超文本的结构超文本的结构如：Windows操作系统中的“帮助”信息超文本节点中的数据从文字扩展为图形、图像、声音、动画、动态视频把超文本推广到多媒体的形式超媒体 = 超文本 + 多媒体如：因特网的WWW信息系统简单超媒体文档示意图第2章声音信息处理声音的相关概念多媒体技术处理的声音信号主要是人耳所能接受的频率范围内的声音信号，通常称之为音频全频带声音音乐声、风雨声、汽车声等其他声音其带宽可达到20～20kHz 言语/语音(speech) 人说话的声音其频率范围约为300～3400Hz 噪音除语音和音乐外的其他音频信号采样量化的主要技术参数采样量化的主要技术参数量化精度：指每个声音样本采样点的幅度量化时采用的二进制的位数，单位bit/s, bps。反映度量声音波形幅度的精度。常用的量化精度为8位、12位、16位。量化精度越高（即位数越多），声音的质量越高，而需要的存储空间也越多；量化精度越低（即位数越少），声音的质量越低，需要的存储空间越少。声道数：声音通道的个数，指一次采样记录所产生的声音波形的个数。单声道：记录声音时，一次只产生一个声波数据。双声道（立体声）：记录声音时，一次产生两个声波数据。声音的相关概念音频文件的分类：（1）声音文件：指通过声音录入设备录制的原始声音，直接记录了真实声音的二进制采样数据，通常文件较大（2）MIDI文件：它是一种音乐演奏指令序列，相当于乐谱，可以利用声音输出设备或与计算机相连的电子乐器进行演奏，由于不包含声音数据，其文件较小声音信号的数字化 1、声音信号的数字化实质将模拟声音信号转换成数字编码形式以便于计算机进行处理的过程 2、声音信号数字化的过程取样取样定理：取样频率不低于声音信号频率的两倍取样频率：语音8kHz，音乐40kHz 量化量化精度越高，声音的保真度越高量化精度：8位，12位，16位编码按某种格式将数据进行组织、压缩，便于计算机存储、处理和在网上传输声音信号的数字化 3、波形声音的主要参数取样频率量化位数声道数目1(单声道)、2(双声道)、5.1/7.1(环绕立体声) 使用的压缩编码方案数码率（bit rate）指的是每秒钟的数据量，也称比特率、码率声音的编码声音的压缩编码的必要性和可能性波形声音数据压缩的必要性波形声音，尤其是全频带声音数据量很大波形声音数据压缩的可能性声音信号中包含有大量的冗余信息人的听觉感知特性具有某种不敏感性相邻的取样信息之间存在很强的相关性声音的编码二、第2代全频带声音的压缩编码 1、MPEG-1声音压缩编码国际上第一个高保真声音数据压缩的国际标准。分为三个层次：层1(Layer 1)：编码简单用于数字盒式录音磁带层2(Layer 2)：算法复杂度中等用于数字音频广播(DAB)和VCD、DVD等层3(Layer 3)：编码复杂用于互联网上的高质量声音的传输如：MP3音乐压缩10倍声音的编码 2、MPEG-2声音压缩编码采用与MPEG-1声音相同的编译码器层1, 层2和层3的结构也相同，但它能支持5.1声道和7.1声道的环绕立体声声音的编码 3、杜比数字AC-3（Dolby Digital AC-3）美国杜比公司开发的多声道全频带声音编码系统它提供的环绕立体声系统由5个（或7个）全频带声道加一个超低音声道组成 6个声道的信息在制作和还原过程中全部数字化，信息损失很少，细节丰富，具有真正的立体声效果在数字电视、DVD和家庭影院中广泛使用声音的编码数字音频的处理一、语音合成（Speech synthesis）根据语言学和自然语言理解的知识，使计算机模仿人的发声，自动生成语音的过程 1、语音合成可分为三个层次： (1)从文字到语音的合成（Text-to-Speech） (2)从概念到语音的合成（Concept-to-Speech） (3)从意向到语音的合成（Intention-to-Speech）目前主要是按照文本（书面语言）进行语音合成，这个过程称为文语转换（Text-To-Speech，简称TTS）数字音频的处理 2、文语（TTS）转换过程文本分析韵律分析语音生成数字音频的处理 3、语音库语音库中存储了大量预先录制的语音基元（单音、词组、短语或句子）的波形，合成时读