- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Chapter Four Speech Recognition Technology--- Speech Recognition System 语音识别技术是让机器接收,识别和理解语音信号,并将其转换成相应的数字信号的技术。 Speech Recognition Process 4.1.2 Feature Extraction 特征提取就是要从语音波形中提取出重要的反映语音特征的相关信息,而去掉那些相对无关的信息,如背景噪声、信道失真等,并把这些信息转换为一组离散的参数矢量。 目前比较常用的两种方法是基于声道模型的线性预测倒谱技术(Linear Predictive Cepstral Coefficients LPCC)和基于听觉机理的Mel频率倒谱技术(Mel Frequency Cepstral Coefficients MFCC)。 (1)线性预测倒谱技术 线性预测分析的基本思想在于:语音信号相邻的采样点之间有很强的相关性。因此, 每个语音信号的采样值, 可以用它前面的若干个采样值的加权和( 线性组合) 来近似表示:预测误差定义为真实采样值和预测值之差, 根据预测误差均方值最小准则, 可以唯一确定一组线性预测系数( 预测系数即为线性组合的加权值) 。 (2)Mel频率倒谱 Mel频率倒谱充分考虑了人耳的听觉特性,将频谱转化为基于Mel频标的非线性频谱, 然后转换到倒谱域上。。 4.1.3 Model Base Establish 该模块发生在训练阶段,用户输入若干次语音训练样本,系统经过上述预处理和特征提取后得到特征矢量参数,然后通过参考模式库的建立模块建立语音训练样本的参考模式库。通过讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模型库。 4.1.4 Pattern matching technology 模式匹配又称相似度度量,是指根据一定准则, 使未知模式与模型库中某一模型获得最佳匹配。该模块是在语音识别阶段,将输入语音的特征矢量参数和参考模式库中的模式进行相似度量比较,将相似度最高的模式所属的类别作为识别的中间候选结果输出。 语音识别所应用的模式匹配和模型训练技术有:动态时间规整技术、隐马尔克夫模型、人工神经网络。 4.2 Main Algorithms Speech Recognition 模式匹配法、动态时间规整(Dynamic Time Warping ,DTW)、 基于统计的隐马尔可夫模型(Hidden Markov Model 简称HMM)、 人工神经网络法(Artificial Neural Net ,ANN)等等 4.2.1 Pattern Matching Method 模式匹配法是多维模式识别中最常用的一种相似度计算方法,在训练过程中,经过特征提取和特征维数的压缩,并采用聚类方法或其他的方法,针对每个模式类各产生一个或几个模板,识别阶段将待识别模式的特征矢量与各个模板进行相似度的计算,然后判断它属于那一个类。 4.2.2动态时间规整(Dynamic Time Warping ,DTW) 目前来看, 动态时间规整(Dynamic Time Warping ,DTW)可能是一个最为小巧的语音识别的算法。其系统开销小, 识别速度快, 在对付小词汇量的语音命令控制系统中是一个非常有效的算法。但是, 如果系统稍微复杂一些, 这种算法就显得力不从心了。 4.2.3 基于统计的隐马尔可夫模型(Hidden Markov Model 简称HMM) 隐马尔可夫模型是由马尔可夫链发展而来,。Markov链是隐马尔可夫模型的基础。在描述隐马尔可夫模型之前,首先介绍马尔可夫链的定义。马尔可夫链是马尔可夫随机过程的特殊情况,即马尔可夫链是状态和时间都离散的Markov过程。在这类随机过程中,随机变量所处的某一个时刻的状态只与前面一时刻的状态有关。 4.2.4 Artificial Neural Nets 最近语音识别的研究热点是把人工神经网络的方法应用到语音识别中的识别与训练中,人工神经网络是一种分布式并行处理系统,它的自适应、自组织、自学习等特征使其特别适合于语音识别中的分类问题。总的来说人工神经网络识别方法可以对综合的输入模式进行训练和识别,能够更好的提高语音识别系统的性能。人工神经网络是由神经元、网络拓扑和学习方法构成的。 人工神经网络有三个基本要素:神经元、网络拓扑(网络模型)和网络的学习方法。人工神经元是对生物神经元的一种模拟和简化,它是人工神经网络的基本处理单位,它是一个多输入,单输出的非线性元件。 * * 语音采集 预处理 数字化 逐帧特征提取 模式匹配 模型库 识别结果 声学模式 字典 语言模型 训练 识别 前端 后端 预处理 LP
文档评论(0)