- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
**************************7.3.2隐马尔科夫模型马尔可夫链又称离散时间马尔可夫链(discrete-timeMarkovchain),是状态空间中经过从一个状态到另一个状态转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关,这种特定类型的“无记忆性”称作马尔可夫性质。马尔可夫链实际上就是一个随机变量随时间按照Markov性质进行变化的过程。7.3.2隐马尔科夫模型在马尔可夫链的基础上进行扩展,用一个观测的概率分布与马尔可夫链上的每个状态进行对应,这样引入双重随机性,使得马尔可夫链不能被直接观察,因此称为隐马尔可夫模型(HMM),HMM在实现过程中表现出了双重随机性的特点,其中之一是马尔科夫链,它把一段语音信号的输出和每一个状态看成一一对应的过程,是可观测的,另一个用来描述状态和观测值之间的统计对应关系的过程,是不可观测的。将这两个随机过程有机结合起来可较好地处理语音信号之间的动态变化和语音特征的短时平稳问题。7.3.2隐马尔科夫模型隐马尔可夫模型主要由初始概π率、转移概率A、输出概率B三个参数决定。该模型就是利用这三个参数来处理语音特征的短时平稳性。HMM模型拓扑图7.3.2隐马尔科夫模型一个HMM模型可以用下列参数描述:1.N,定义N个状态θ1,θ2,...,θN为马尔科夫链,定义qt是马尔科夫链在t时刻所得出的观测值,qt∈(θ1,θ2,...,θN)表示语音信号处于某个平稳的状态;2.M,每个状态可能对应观察值的数量。定义M个观察值V1,V2,...,VM3.π,初始状态概率,,其中π=(π1,π2,...,πN),其中7.3.2隐马尔科夫模型一个HMM模型可以用下列参数描述:4.A,状态转移概率矩阵,,其中5.B,观察值概率矩阵,,其中在描述一个HMM模型时,其状态数量和观测值的数量是已知的,因此HMM模型也可记为:7.3.2隐马尔科夫模型HMM模型主要由两部分构成,一是马尔科夫链,它是由参数、确定的,输出的结果是语音特征值的状态序列,二是由参数确定的一个随机过程,输出结果是语音特征值的观测序列。HMM组成示意图7.3.3GMM-HMM声学模型使用GMM对HMM每个状态的语音特征分布进行建模,有许多明显的优势。只要混合的高斯分布数目足够多,GMM可以拟合任意精度的概率分布,并且它通过EM算法很容易拟合数据。GMM参数通过EM算法的优化,可以使其在训练数据上生成语音观察特征的概率最大化。在此基础上,若通过鉴别性训练,基于GMM-HMM的语音识别系统的识别准确率可以得到显著提升。7.3.3GMM-HMM声学模型基于GMM-HMM的声学模型7.3.3GMM-HMM声学模型GMM-HMM声学模型中语音特征的最佳观测序列如下:k表示第i个状态时输出语音特征观测序列中所包含高斯分量的数量,ωik表示第i个状态时输出语音特征观测序列的权重值,uik表示i状态时输出语音特征观测序列的均值,D表示语音特征向量O的维数,表示i状态时输出语音特征观测序列的协方差矩阵,GMM模型通过加权集成多个语音信号的高斯分量来描述其语音特征的空间分布,利用EM算法对语音数据集进行声学模型的建模与迭代训练。7.4移动机器人语音控制对于没有应用ROS系统的移动机器人,现阶段的绝大多数智能语音控制系统都采用市场上的硬件模块作为语音识别单元,常用的有LD3320语音识别芯片和智能语音控制模组YQ5969系列,这些均是非特定语音识别芯片,只针对相同的语言进行识别,和人的年龄、性别等差异无关。百度智能语音等开发平台提供了智能语音开发工具包SDK,使得二次开发更为方便快捷,使用语音API即可实现语音识别与合成等功能。7.4移动机器人语音控制对于应用ROS的移动机器人,则使用基于Linux系统的SDK编写语音识别节点,当节点开始运行时,通过麦克风接受语音信号并将其转化为相应的文字,文字信息与指令库中的信息比较,匹配成功的情况下通过特定的主题发布。移动机器人控制节点通过订阅这个主题接收文字指令,并且将其发送给移动机器人平台的主控制器,主控制器通过驱动模块控制直流电机运动,从而完成语音控制。7.4移动机器人语音控制移动机器人语音控制流程7.4移动机器人语音控制ROS中,一般使用C++和Python语言编写语音处理和识别的相关程序,并形成语音控制系统所需的语音采集软件包、语音处理软件包、语音识别算法软件包和移动机器人控制软件包,在ROS系统中对编写的各个软件包进行gcc编译生成相应
原创力文档


文档评论(0)