文字声音图像虚拟存储传播.ppt

  1. 1、本文档共124页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文字声音图像虚拟存储传播

第1章 文本 CCD扫描仪工作原理 OCR印刷体识别 手写板 超文本(hypertext)的阅读方式 传统的顺序式阅读——线形文本 通过链接、跳转、导航、回溯等操作实现跳跃式阅读 超文本采用一种网状结构来组织信息 节点(node) 节点包含的内容 超链(hyperlink) 链源(也称之为“锚”) 链宿 超文本的结构 超文本的结构 如:Windows操作系统中的“帮助”信息 超文本节点中的数据从文字扩展为图形、图像、声音、动画、动态视频 把超文本推广到多媒体的形式 超媒体 = 超文本 + 多媒体 如:因特网的WWW信息系统 简单超媒体文档示意图 第2章 声音信息处理 声音的相关概念 多媒体技术处理的声音信号 主要是人耳所能接受的频率范围内的声音信号,通常称之为音频 全频带声音 音乐声、风雨声、汽车声等其他声音 其带宽可达到20~20kHz 言语/语音(speech) 人说话的声音 其频率范围约为300~3400Hz 噪音 除语音和音乐外的其他音频信号 采样量化的主要技术参数 采样量化的主要技术参数 量化精度:指每个声音样本采样点的幅度量化时采用的二进制的位数,单位bit/s, bps。反映度量声音波形幅度的精度。 常用的量化精度为8位、12位、16位。 量化精度越高(即位数越多),声音的质量越高,而需要的存储空间也越多;量化精度越低(即位数越少),声音的质量越低,需要的存储空间越少。 声道数:声音通道的个数,指一次采样记录所产生的声音波形的个数。 单声道:记录声音时,一次只产生一个声波数据。 双声道(立体声):记录声音时,一次产生两个声波数据。 声音的相关概念 音频文件的分类: (1)声音文件:指通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据,通常文件较大 (2)MIDI文件:它是一种音乐演奏指令序列,相当于乐谱,可以利用声音输出设备或与计算机相连的电子乐器进行演奏,由于不包含声音数据,其文件较小 声音信号的数字化 1、声音信号的数字化实质 将模拟声音信号转换成数字编码形式以便于计算机进行处理的过程 2、声音信号数字化的过程 取样 取样定理:取样频率不低于声音信号频率的两倍 取样频率:语音8kHz,音乐40kHz 量化 量化精度越高,声音的保真度越高 量化精度:8位,12位,16位 编码 按某种格式将数据进行组织、压缩,便于 计算机存储、处理和在网上传输 声音信号的数字化 3、波形声音的主要参数 取样频率 量化位数 声道数目 1(单声道)、2(双声道)、5.1/7.1(环绕立体声) 使用的压缩编码方案 数码率(bit rate) 指的是每秒钟的数据量,也称比特率、码率 声音的编码 声音的压缩编码的必要性和可能性 波形声音数据压缩的必要性 波形声音,尤其是全频带声音数据量很大 波形声音数据压缩的可能性 声音信号中包含有大量的冗余信息 人的听觉感知特性具有某种不敏感性 相邻的取样信息之间存在很强的相关性 声音的编码 二、第2代全频带声音的压缩编码 1、MPEG-1声音压缩编码 国际上第一个高保真声音数据压缩的国际标准。分为三个层次: 层1(Layer 1):编码简单 用于数字盒式录音磁带 层2(Layer 2):算法复杂度中等 用于数字音频广播(DAB)和VCD、DVD等 层3(Layer 3):编码复杂 用于互联网上的高质量声音的传输 如:MP3音乐压缩10倍 声音的编码 2、MPEG-2声音压缩编码 采用与MPEG-1声音相同的编译码器 层1, 层2和层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声 声音的编码 3、杜比数字AC-3(Dolby Digital AC-3) 美国杜比公司开发的多声道全频带声音编码系统 它提供的环绕立体声系统由5个(或7个)全频带声道加一个超低音声道组成 6个声道的信息在制作和还原过程中全部数字化,信息损失很少,细节丰富,具有真正的立体声效果 在数字电视、DVD和家庭影院中广泛使用 声音的编码 数字音频的处理 一、语音合成(Speech synthesis) 根据语言学和自然语言理解的知识,使计算机模仿人的发声,自动生成语音的过程 1、语音合成可分为三个层次: (1)从文字到语音的合成(Text-to-Speech) (2)从概念到语音的合成(Concept-to-Speech) (3)从意向到语音的合成(Intention-to-Speech) 目前主要是按照文本(书面语言)进行语音合成,这个过程称为文语转换 (Text-To-Speech,简称TTS) 数字音频的处理 2、文语(TTS)转换过程 文本分析 韵律分析 语音生成 数字音频的处理 3、语音库 语音库中存储了大量预先录制的语音基元(单音、词组、短语或句子)的波形,合成时读

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档