- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音识别与语义识别
声音实际上是一种波
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。??? 语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。
目前大多数语音识别技术是基于统计模式的,从语音产生机理来看,语音识别可以分为语音层和语言层两部分。
当今语音识别技术的主流 HYPERLINK /base/datastructure \o 算法与数据结构知识库 \t /zouxy09/article/details/_blank 算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。
语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。
一个连续语音识别系统大致可分为四个部分:特征提取,声学模型训练,语言模型训练和解码器。
(1)预处理模块:
?????? 对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)等处理。
(2)特征提取:
??????? 去除语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息,并用一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理。
??????? 目前的较常用的提取特征的方法还是比较多的,不过这些提取方法都是由频谱衍生出来的。Mel频率倒谱系数(MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。在sphinx中也是用MFCC特征的。MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。
?????? 在sphinx中,用帧frames去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的MFCC特征,用特征向量来表示。
语音识别基础
语音信号的采样和量化
语音信号是一个时间和幅度都连续变化的一维模拟信号而语音识别的过
程是一个对语音信号进行数字处理的过程,在对语音信号处理之前,必须要对
其进行数字化,这个过程就是模/数(A/D)转化模/数转化过程要经过采样和量
化两个过程,从而得到时间和幅度上的离散数字信号根据奈奎斯特采样定律,
采样频率应为原始信号频率的两倍以上,才能使采样过程中不会丢失信息,而
且能从采样信号中准确的重构原始信号的波形正常人的发音范围是从40Hz到
340OHz左右,因此在实验中,本文对语音信号的采样频率均为skHz
2语音信号的预加重
语音信号从嘴唇辐射后,高频端大约在800Hz以上有6dB/倍频的衰减因此,在对语音信号进行分析之前,一般要对语音信号加以提升(预加重)预加重的目的是滤除低频干扰,尤其是50Hz或者60Hz的工频干扰,提升对语音识别有用的高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析
.3语音信号的加窗处理
为了能对语音信号进行处理,我们可以假
定在IOms一30ms之间语音信号是平稳的,语音频谱特性和语音特征参数恒定
因此需将语音信号划分为一个一个的短时段,每一个短时段称为一帧,为了从
语音信号中切去出样本信号,就要用时间窗函数乘以原始语音信号,这种操作
就称为加窗。目前应用最为广泛的是汉明窗
4语音信号的端点检测
其目的是从语音信号中检测出语音信号段和噪音段,准确的端点检测不仅可以减少计算量,而且可以提高系统的识别率常用的端点检测是基于双门限比较法〔,,
的端点检测,就是根据语音信号的特征参数(能量和过零率)进行清音!噪音判
别,从而完成端点检测的
经过对语音信号的预处理之后就要进行特征参数的提取,
对特征参数的要求是:
1!能有效代表语音特征,具有良好的区分性;
2!特征参数之间有良好的独立性;
3!特征参数易于计算,最好能保证语音识别的实时实现
特征提取(包括分帧)、音素建模、字典、隐式马尔科夫模型
语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
特征提取就是从语音信号中提取出语音的特征序列提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量
语音识别技术中最流行的特征参数是基于声道模型和听觉机理的LPCC(Linear Predietive Cepstral
文档评论(0)