数字声音xx.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数字声音xx

模拟音频信号的物理特征 与声音有关的几个术语 所谓听觉,就是接收声音并转换成神经脉冲的过程。所谓感知是指将听到的声音经过大脑的处理后转换成给定的含义。 音高是人对声波频率的主观属性,它首先与声波的频率有关。声波的振动频率高,我们听到的声音就高,反之亦然,但它们之间并非线性关系。 音色是声波波形的主观属性。不同的发音体所发出的音波都有自己的特异性。声波的类型是多种多样的,一般可分为纯音和复合音两大类。 语音是特殊的复合音。语音由元音和辅音所构成。元音是一种能连续发出的音乐,辅音主要是不能连续发出的短促的噪音,元音与辅音合成汉语音节。 响度是声波振幅的主观属性,它是由声波的振幅引起的。振幅越大则响度越大,但它们之间也不是线性关系。 七、语音识别 1.目标:实现人与机器进行自然语言通信 2.文本——语音转换器TTS  TTS:Text-to-Speech 类型:综合的-计算机模拟,能读出任何单词     明显机器味道     连贯的—预先录好的单词和词组库,可能读不     出,更自然  自然度是重要指标   TTS组成:文本分析,韵律分析,语音生成  应用领域 3.语音识别器   指标:连续性与不连续性      单词量      口音识别      规则句式与自由句式      识别速度与准确率 4.语音识别基本原理及过程   语音识别过程-训练与识别   前端处理:语音分析,提出语音参量   模型训练:动态规划,隐马尔可夫,神经网络   模型分类:计算语音特征量与词库中每个模型的逻        辑距离   判决逻辑:最终结果,上下文关联与语法判决 5.中文语音识别软件   中文语音的特殊:字与词界限不分明,同音字多,            有声调与口音    汉语识别只能采用连续语音识别    ViaVoice中文语音识别系统 * * 声音信号的形式 在自然界,声波与水波一样都是一种振动波 第二章 数字声音及MIDI简介 一、声音与听觉器官 1. 声音 声音是携带信息的极其重要的媒体,它是通过空气传播的一种连续的波,叫声波。 声音强弱:体现声波压力的大小。 音调高低:体现声音的频率。 用电表示,声音信号在时间、幅度上都是连续的模拟信号。 声波特性:(与普通波同)反射、折射、衍射 声音信号组成:许多频率不同的信号(复合信号:单一频率信号 分量信号) 用声音录制软件记录的英文单词”Hello”语音的实际波形 声波的频率、周期与振幅 重要参数:带宽(组成复合信号频率范围) 高保真声音频率范围:10Hz~20000Hz,带宽约为20KHz, (对比:视频信号6MHz) 基本参数:频率和幅度 (亚)次音信号 音频信号 超音频信号 (有很强方向性,可以形成波束) 20Hz 20Hz~20kHz 20kHz 感知幅度 0~120db 发声器官:80~3400Hz 话音信号:300~3000Hz 多媒体技术,处理主要是音频信号(音乐,话音,风声,雨声,鸟叫,虫鸣,机器等)。 2. 声音信号数字化 1)从模拟信号过渡到数字信号 a. 数字量运算容易实现(非物理实现) b.数字信号精确,不受环境和时间影响 c.可编程 2) 模拟信号与数字信号 时间和幅值都用连续的数字表示的信号叫模拟信号。 时间和幅值都用离散的数字表示的信号叫数字信号。 3)声音信号数字化 声音 ? 计算机 (采样和量化 ) 连续时间离散化? 采样(每隔一小段时间采样一次,间隔均匀,为均匀采样。) 连续幅度离散化? 量化(信号强度分成一小段一小段,间隔相等,为线性量化,否则为非线性量化。) 幅值量化:0.0v,0.1v,0.2v…0.7v 采样 问题:a. 采样频率(fs)(每秒采集多少声音样本) b. 量化精度(每个声音样本的位数bit per sample, bps) 4)采样频率 奈奎斯特理论:采样频率≥2 * 信号最高频率 fs ≥ 2f 或 Ts ≤ T/2 高品质声音:44.1KHz、无损数字化(所能听到最高频率22kHz) 其他标准:11.25kHz 22.5kHz 如果采样频率低,可能产生频率混叠,失真严重 。

文档评论(0)

6952225 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档