- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
                        查看更多
                        
                    
                隐马尔可夫模型的基本原理及其在语音识别中的应用
                    第十章  语音识别;10.1  概述;      语音识别系统分为两个方向:一是根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统;二是根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量,以及无限词汇量语音识别系统。
      不同的语音识别系统,尽管设计和实现的细节不同,但所采用的基本技术是相似的。一个典型的语音识别系统如下页图所示。主要包括预处理、特征提取和训练识别网络。 ;输入;10.1.1    预处理;抗混叠滤波;预加重;2.端点检测;   (1) 短时平均幅度
     端点检测中需要计算信号的短时能量,由于短时能量的计算涉及到平方运算,而平方运算势必扩大了振幅不等的任何相邻取样值之间的幅度差别,这就给窗的宽度选择带来了困难,而用短时平均幅度来表示语音能量,在一定程度上可以克服这个弊端。;   (2) 短时平均过零率
      当离散信号的相邻两个取样值具有不同的符号时,便出现过零现象,单位时间内过零的次数叫做过零率。
      如果离散时间信号的包络是窄带信号,那么过零率可以比较准确的反应该信号的频率。在宽带信号情况下,过零率只能粗略的反映信号的频谱特性。;10.1.2  语音识别特征提取;       孤立词语音识别系统的特征提取一般需要解决两个问题:
      一个是从语音信号中提取(或测量)有代表性的合适的特征参数(即选取有用的信号表示);
      另一个是进行适当的数据压缩。
      对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这也是信息压缩的过程。;      语音信号的特征主要有时域和频域两种。
      时域特征:短时平均能量、短时平均过零率、共振峰、基音周期等;
     频域特征:线性预测系数(LPC)、LP倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、Mel频率倒谱系数(MFCC)等。
      目前已有结合时间和频率的特征,即时频谱,充分利用了语音信号的时序信息;以及基于听觉模型的特征参数提取,如感知线性预测(PLP)分析。;    1.线性预测系数(LPC);      根据语音产生的模型,语音信号S(z)是一个线性非移变因果稳定系统V(z)受到信号E(z)激励产生的输出。在时域中,语音信号s(n)是该系统的单位取样响应v(n)和激励信号e(n)的卷积。语音产生的声道模型是一个可用下式阐述的全极点模型:
;      根据最小均方误差对该模型参数ak进行估计,就得到了线性预测编码(LPC)算法,求得的   
     即为LP系数(p为预测器阶数)。对LPC的计算方法有自相关法(Levinson-Durbin莱文逊-杜宾法)、协方差法、格型法等。计算上的快速有效保证了这一声学特征的广泛使用。;  2.LPC倒谱系数(LPCC);    3.Mel频率倒谱系数(MFCC);            这里,MFCC系数的个数L通常取最低的12~16。在谱失真测度定义中通常不用0阶倒谱系数,因为它是反映倒谱能量的。上面所说的在频域进行带通滤波是对能量谱进行滤波,这样做的根据是考虑到一个多分量信号的总能量应该是各个正交分量的能量之和。;    4. 过零峰值幅度(ZCPA) ;      近年来,基于听觉模型的语音特征提取方法在语音识别领域日益受到重视。
            过零峰值幅度特征ZCPA就是基于人类听觉特性的一种特征。
            下图给出了基于人耳听觉特性的ZCPA特征提取原理图:
;ZCPA原理框图;            该系统由带通滤波器组、过零检测器、峰值检测器、非线性压缩和频率接收器组成。带通滤波器组由16个FIR滤波器组成,用来仿真耳蜗基底膜;过零检测器、峰值检测器、非线性压缩部分则仿真听觉神经纤维。从过零检测器获得频率信息,峰值检测器获得强度信息,经非线性压缩后,用频率接收器合成频率信息和强度信息,最后将16路所获得的信息合成为语音信号的特征。;10.1.3  语音识别方法;      模式匹配常用的技术有矢量量化(VQ)和动态时间规整(DTW);
            统计型模型方法常见的是隐马尔可夫模型(HMM);
            语音识别常用的神经网络有反向传播(BP)网络、径向基函数网络(RBF)及小波网络。 
            本书重点介绍经典的隐马尔可夫模型及其在语音识别中的应用。 ;           模式匹配法用于语音识别共有四个步骤:特征提取、模板训练、模板分类、判决。其原理框图如下:;            训练过程:输入语音经过预处理后,语音信号的特征被提取出来,首先在此基础上建立所需的
                您可能关注的文档
- 正确认识劳动分工、脑力劳动和剥削.doc
- 校园网使用简单的解释和常见的问题.ppt
- 武汉环境分析.doc
- 有道综合管理系统软件的版本号的V10.ppt
- 永安保险财产保险索偿程序 2014.ppt
- 武汉市国家税务局报告约在线课程.ppt
- 油品密度和粘度.ppt
- 油炸锅中国手册.doc
- 有关数字阅读的方法.ppt
- 浙江大学个人住房投资计划.ppt
- 2025-2026普通高中英语学业水平考试复习手册专题04 动词语态(原卷版).doc
- 2025-2026普通高中英语学业水平考试复习手册专题05 非谓语动词(原卷版).doc
- 2025-2026普通高中英语学业水平考试复习手册专题08 名词性从句(原卷版).doc
- 2026年广东高考数学总复习:专题08 立体几何初步(知识梳理+考点精讲)(原卷版).doc
- 2026年广东省春季高考语文试卷试题及答案详解(精校打印版).doc
- 2026年广东高考数学总复习:专题07 解三角形和复数(知识梳理+考点精讲)(原卷版).doc
- 2026年广东高考数学总复习:专题01 集合与常用逻辑用语(知识梳理+考点精讲)(原卷版).doc
- 2026年广东高考数学总复习:专题02 不等式(知识梳理+考点精讲)(原卷版).doc
- 5年(2021-2025)上海高考数学真题分类汇编:专题06 解三角形 原卷版.doc
- 5年(2021-2025)上海高考数学真题分类汇编:专题07 函数的应用 原卷版.doc
最近下载
- 石油化工金属管道工程施工质量验收规范.pdf VIP
- 干部履历表(199版A4).doc VIP
- 危险品车辆挂靠协议范本6篇.docx VIP
- 2025年遵义市大数据发展管理局面向基层公开选调2名事业单位工作人员笔试历年典型考题(历年真题考点)解题思路附带答案详解.docx VIP
- 虚拟电厂建设方案.pptx VIP
- 《建设工程安全生产管理条例》最新版全文.docx VIP
- (学校安全网格化管理实施方案.doc VIP
- 人教版七年级上数学期中试卷(数学试卷新课标人教版七年级上).doc VIP
- ANSI_ISEA 105-2016国外国际标准.pdf VIP
- GB50645-2011 石油化工绝热工程施工质量验收规范.docx VIP
 原创力文档
原创力文档 
                         
                                    

文档评论(0)