电压范围量化编码0507301103.PPT

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
电压范围量化编码0507301103

语音编码 陈虎 声音概述 声音是携带信息的重要媒体 音乐和解说使静态图像更加丰富多彩、音乐和视频的同步使视频图像更具真实性 传统计算机与人交互是通过键盘和显示器,人们通过键盘或鼠标输入,通过视觉接收信息。多媒体计算机为计算机增加音频通道,采用人们最熟悉、最习惯的方式与计算机交换信息 为计算机装上“耳朵”(麦克风),让计算机听懂、理解人们的讲话--语音识别 为计算机安上嘴巴和乐器(扬声器),让计算机能够讲话和奏乐--语音和音乐合成 声音概述 声音是听觉器官对声波的感知,而声波是通过空气或其他媒体传播的连续振动 声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上 声音用电表示时,声音信号在时间和幅度上都是连 续的模拟信号,如图3-1所示 声波具有普通波所具有的特性,例如反射 、折射和衍射等 声音概述 人的听觉器官能感知的声音频率大约是20~20kHz,在这种频率范围里感知的声音幅度大约在0~120dB 语音信号(speech):人说话的信号频率通常为300~3400Hz 亚音信号(subsonic):小于20Hz的信号 超声波信号(ultrasonic):高于20KHz的信号 声音概述 在组合声音信号的一系列分量信号音波中,最低频的音波称为基音,其余音波称为泛音 声音的三要素:音调、音色、音强 音调(音高):取决于基频的高低。直观感受:“唱不上去了”,“跑调了” 音色:是由混入基音的泛音所决定的,如果中高泛音丰富音色就明亮,反之音色就暗淡。不同的乐器、不同人的语音音色不同 音强(响度) :取决于声音的幅度(分贝) 声音的数字化 模拟音频:时间和幅度上都是连续的 模拟磁性录音技术,受电磁性能影响较大 数字音频:时间和幅度上都是离散的 计算机、数字CD、数字磁带(DAT) 声音的数字化 采样(sampling):时间上的离散化 量化(quantization):幅度上的离散化 声音的数字化 采样定理(Nyquist theory) 奈奎斯特理论指出:采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音 人类听觉的频率范围大约为:20~20kHz,为保证不失真,采样频率应在40kHz左右 常用的采样频率有:8kHz, 11.025kHz, 22.05kHz, 16kHz, 37.8kHz, 44.1kHz, 48kHz 声音的数字化 采样精度: 度量声音波形幅度的精确程度,用每个声音样本的 位数(即bps)表示,例如每个声音样本用16位表示,测得的声音样本值是在 [0~65535]范围里的数,它的精度是1/65536 例如每个声音样本用16位表示,测得的声音样本值是在 [0~65535]范围里的数,它的精度是1/65536 精度是在模拟信号数字化过程中度量模拟信号的最小单 位,因此也称量化阶(quantization step size) 0~1 V的电压用256个数表示,量化阶等于1/256 V 声音的数字化 样本位数的大小影响到声音的质量,位数越多,声 音质量越高,所需存储空间也越多;位数越少,声 音质量就越低,所需存储空间也越少 声音的数字化 采样精度的另一种表示方法是信号噪声比, 简称为信噪比 其中,Vsignal表示信号电压,Vnoise表示量化噪声电压(模拟信号的采样值和与它最接近的数 字数值之间的差值),SNR的单位为分贝(db) 声音编码 声音信号经过数字化以后将产生大量的数据。为了降低存储和传输成本,有必要对数字音频数据进行压缩编码 如:CD音频数据(未经压缩): 数据率:44.1×1000×16×2 = 1.41M bit/s 1小时CD音频的数据量约为635M 音频编码的可能性 声音信号中包含大量的冗余信息 声音编码 从信息保持角度讲,只有当信源本身具有冗余度(redundancy),才能对其进行压缩 时、频域信息的冗余 如幅度的非均匀分布、样本间的相关等等 人的听觉感知机理 语音最终是给人听的,要避免做“即使记录了,人耳也听不见”的无用功 声音编码 编码算法的评价 声音的清晰度和自然度难以度量,评价十分困难 具有重要意义 评价的主要依据 音频质量 数据率 计算复杂度 音频编码目标 低码率、短延时、高质量 声音编码 音频质量评价方法分为两类: 客观测量法:信噪比(SNR) 主观测量法:主观平均判分法(mean opinion score, MOS),一般采用5分制 语音的形成原理 肺中的空气受到挤压形成气流,气流通过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去,就形成了话音。 气流、声门可以等效为一个激励源,

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档