语音处理与语音识别简介.ppt

下载文档 降价啦

248
0
约4.5千字
约 34页
2018-01-08 发布于湖北
举报
版权申诉
保障服务

语音处理与语音识别简介.ppt

1、本文档共34页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

语音处理与语音识别简介

* * 根据处理的语音数据和识别结果分类连续语音识别（Continuous Speech Recognition）孤立词识别（Isolate Word Recognition）关键词检测（Key Word Recognition，Key Word Spotting）根据针对的发音人分类特定人语音识别（SD：Speaker Dependent）非特定人语音识别（SI：Speaker Independent） * * 特征提取语言模型自适应第一遍识别声学模型前端处理第n遍识别语音识别结果识别结果系统框架 * * 前端处理消除个体的影响声道长度归一（VTN：Vocal Tract Length Normalization）端点检测短时能量高阶谱算法子带能量语音增强（去噪）维纳滤波 * * FFT 频谱 Log DCT 39维声学特征向量美标度三角滤波器组倒谱均值减 * * 声学模型确定发音串 P（O|A）主流方法 CHMM HMM的单元：三音子（Tri-Phone）注：Phone（Phoneme）：音子，b, t, a Syllable：音节, ba, ti, tao Bi-Phone：二音子, b-a-t-a, b-a-t-a Tri-Phone：三音子 w-o-sh-i-sh-u-i, w-o-sh-i-sh-u-i * * 语言模型已知发音串写出词串 P(S|LP)P(P|L)P(L|W)P(W|A)P(A) 其中，W是字串，A是读音串，L是词串，P是词性串，S是词义串主流方法三元语法：n-gram * * 搜索（解码）识别的主要过程通过搜索找到某一概率（P(W)）最大化的字串W 主流方法 Viterbi搜索：HMM内部词网格搜索：HMM之间 * * 说话人自适应根据新的语音重新调整模型参数特定人和非特定人之间的一种折衷主流方法 MLLR（最大似然线性回归）对模型参数寻找一个最优线性变换 y = Ax + b MAP（最大后验概率）求使得后验概率最大的参数 θ＝max θP(θ|x） * * 声学模型调整HMM参数带噪声训练方言库训练语言模型计算N-gram概率数据稀疏问题 * 谢谢！数字化室讨论小组 * 语音处理与语音识别简介 2014年9月 * 主要内容数字音频基础知识音频处理基础知识语音识别技术简介 * 主要内容数字音频基础知识音频处理基础知识语音识别技术简介 * ● 是指自然声 ● 是机械振动在弹性介质中传播的机械波 ● 是随时间连续变化的物理量 ● 声音概念 ● 振幅 — 波的高低幅度，表示声音的强弱 ● 周期 — 两个相邻波之间的时间长度 ● 频率 — 每秒钟波振动的次数，单位是 Hz ● 声音特性 * 声音的强度 (响度或音量)，与声波振幅成正比；唱盘、CD 盘等声音载体中的音强不变，通过播放设备的音量控制可改变聆听时强度；音频处理软件可提高声源音强声音的特色，主要影响因素是复音；复音指具有不同频率和不同振幅的混合声音，其中最低频率是 “基音”，是声音的基调，其他频率的声音为 “谐音 (泛音)” 代表声音的高低，与频率有关；使用音频处理软件对声音的频率进行调整时，其音调也会随之发生变化 ● 声音的三要素 ● 音调 —— (高低) ● 音强 —— (强弱) ● 音色 —— (特质) * ● 声音的频率范围 * 数字音频声音是振动的机械波，话筒把机械振动转换成电信号，用随时间连续变化的物理量表示，称之为模拟音频。在计算机内部，所有的信息均以数字表示，代表声音信号的物理量也用一系列数字表示，称之为数字音频。模拟音频在时间上是连续的，而数字音频则是一个数据序列，在时间上不具备连续性，因此只能是断续的。当把模拟声音变成数字声音时，需要每隔一个时间间隔在模拟声音波形上取一个电压幅度值，称之为采样。采样得到的表示声音强弱的模拟电压幅值是连续的，把无穷多个电压幅值用有限个数字表示，称之为量化。 * ● 采样采样过程按固定间隔采样声音波形采样声音波形之后的结果声波是连续信号，或称连续时间函数 x(t)。用计算机处理这些信号时应先离散化，即按一定的时间间隔 (T) 取值，得到 x(nT) ( n为整数 )，T 称采样周期，1/T 称采样频率 ( 每秒钟采样次数 )，x(nT) 称采样值 ( 或离散信号 ) 采样概念 * 设连续信号 x(t) 的频谱为 x(f)，以采样间隔 T 采样得到离散信号 x(nT) 如果满足：当 | f | ≥ fc ( fc 是信号高端截止频率 ) 时，有 T ≤ 1/(2fc) 或 f