语音处理与语音识别简介.ppt

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音处理与语音识别简介

* * 根据处理的语音数据和识别结果分类 连续语音识别(Continuous Speech Recognition) 孤立词识别(Isolate Word Recognition) 关键词检测(Key Word Recognition,Key Word Spotting) 根据针对的发音人分类 特定人语音识别(SD:Speaker Dependent) 非特定人语音识别(SI:Speaker Independent) * * 特征提取 语言模型 自适应 第一遍 识别 声学模型 前端处理 第n遍 识别 语音 识别结果 识别结果 系统框架 * * 前端处理 消除个体的影响 声道长度归一(VTN:Vocal Tract Length Normalization) 端点检测 短时能量 高阶谱算法 子带能量 语音增强(去噪) 维纳滤波 * * FFT 频谱 Log DCT 39维声学特征向量 美标度三角滤波器组 倒谱均值减 * * 声学模型 确定发音串 P(O|A) 主流方法 CHMM HMM的单元:三音子(Tri-Phone) 注:Phone(Phoneme):音子,b, t, a Syllable:音节, ba, ti, tao Bi-Phone:二音子, b-a-t-a, b-a-t-a Tri-Phone:三音子 w-o-sh-i-sh-u-i, w-o-sh-i-sh-u-i * * 语言模型 已知发音串写出词串 P(S|LP)P(P|L)P(L|W)P(W|A)P(A) 其中,W是字串,A是读音串,L是词串,P是词性串,S是词义串 主流方法 三元语法:n-gram * * 搜索(解码) 识别的主要过程 通过搜索找到某一概率(P(W))最大化的字串W 主流方法 Viterbi搜索:HMM内部 词网格搜索:HMM之间 * * 说话人自适应 根据新的语音重新调整模型参数 特定人和非特定人之间的一种折衷 主流方法 MLLR(最大似然线性回归) 对模型参数寻找一个最优线性变换 y = Ax + b MAP(最大后验概率) 求使得后验概率最大的参数 θ=max θP(θ|x) * * 声学模型 调整HMM参数 带噪声训练 方言库训练 语言模型 计算N-gram概率 数据稀疏问题 * 谢谢! 数字化室讨论小组 * 语音处理与语音识别简介 2014年9月 * 主要内容 数字音频基础知识 音频处理基础知识 语音识别技术简介 * 主要内容 数字音频基础知识 音频处理基础知识 语音识别技术简介 * ● 是指自然声 ● 是机械振动在弹性介质中传播的机械波 ● 是随时间连续变化的物理量 ● 声音概念 ● 振幅 — 波的高低幅度,表示声音的强弱 ● 周期 — 两个相邻波之间的时间长度 ● 频率 — 每秒钟波振动的次数,单位是 Hz ● 声音特性 * 声音的强度 (响度或音量),与声波振幅成 正比;唱盘、CD 盘等声音载体中的音强 不变,通过播放设备的音量控制可改变聆 听时强度;音频处理软件可提高声源音强 声音的特色,主要影响因素是复音;复 音指具有不同频率和不同振幅的混合声 音,其中最低频率是 “基音”,是声音的 基调,其他频率的声音为 “谐音 (泛音)” 代表声音的高低,与频率有关;使 用音频处理软件对声音的频率进行 调整时,其音调也会随之发生变化 ● 声音的三要素 ● 音调 —— (高低) ● 音强 —— (强弱) ● 音色 —— (特质) * ● 声音的频率范围 * 数字音频 声音是振动的机械波,话筒把机械振动转换成电信号,用随时间连续变化的物理量表示,称之为模拟音频。 在计算机内部,所有的信息均以数字表示,代表声音信号的物理量也用一系列数字表示,称之为数字音频。 模拟音频在时间上是连续的,而数字音频则是一个数据序列,在时间上不具备连续性,因此只能是断续的。 当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个电压幅度值,称之为采样。 采样得到的表示声音强弱的模拟电压幅值是连续的,把无穷多个电压幅值用有限个数字表示,称之为量化。 * ● 采样 采样过程 按固定间隔 采样声音波形 采样声音波 形之后的结果 声波是连续信号, 或称连续时间函数 x(t)。 用计算机处理这些信号时应先 离散化,即按一定的时间间隔 (T) 取值,得到 x(nT) ( n为整数 ),T 称采样 周期,1/T 称采样频率 ( 每秒钟采样次数 ),x(nT) 称采样值 ( 或离散信号 ) 采样概念 * 设连续信号 x(t) 的频谱为 x(f),以采样间隔 T 采样得到离散信号 x(nT) 如果满足:当 | f | ≥ fc ( fc 是信号高端截止频率 ) 时,有 T ≤ 1/(2fc) 或 f

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档