利用MATLAB平台实现少量字的语音识别(含源文件)讲述.doc

下载文档 降价啦

4
0
约1.32万字
约 30页
2017-05-14 发布于湖北
举报
版权申诉
保障服务

利用MATLAB平台实现少量字的语音识别(含源文件)讲述.doc

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

利用MATLAB平台实现少量字的语音识别(含源文件)讲述

本科毕业论文(设计) 论文题目利用MATLAB平台实现少量字的语音识别摘要摘要：研究两种不同的语音识别算法---动态时间伸缩算法(DTW)和隐马尔科夫模型(HMM), 初步探究并实现在MATLAB环境中应用DTW识别法的孤立字语音识别实验平台。关键字：MATLAB，语音识别，MFCC，动态时间伸缩算法(DTW)，隐马尔科夫模型（HMM）【Abstract】: Use two kinds of arithmetic to study speech recognition: Dynamic Time Warping (DTW) and the Hidden Markov Model (HMM). test platform of speech recognition using DTW. 【Key words】: MATLAB, speech recognition, MFCC, Dynamic Time Warping, Hidden Markov Model 目录引言 1.语音识别简介 1.1语音识别系统的分类 1.2语音识别系统的基本构成 2.语音识别参数 2.1线性预测系数(LPC) 2.2线性预测倒谱系数(LPCC) 2.3 MFCC系数 2.4参数计算流程 3.DTW算法 3.1 DTW算法原理 3.2 DTW的高效算法 4.HMM算法 4.1 HMM的原理 4.2 HMM的前向概率和后向概率 17 4.3识别算法——Viterbi解码 19 4.4 baum-welch算法 5.实验及总结 23 5.1 实验准备以及步骤 23 5.2 实验结果及讨论 25 5.3 实验结论 29 参考文献 30 引言自上世纪80年代开始，语音识别技术的研究进入了一个蓬勃发展的时期，一些商用系统也从实验室进入市场。然而，在实际的应用中，由于各种干扰因素导致的测试条件与训练环境的不匹配，系统的性能往往会收到极大的影响。因此提高语音识别系统的性能就成为了语音识别技术真正走向实用化的关键课题。语音识别是以声音作为研究对象它是语音信号处理的一个重要研究方向，是模式识别的一个分支涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解），其最终目标是实现人与机器进行自然语言通信。本文研究了汉语语音识别技术及其实现方法。论文首先分析了语音信号预处理问题。对MFCC倒谱系数在语音识别中的运用做了详细介绍。其次研究了基于DTW的语音识别系统，针对DTW算法中系统识别性能过分依赖于端点检测、动态规划的计算量太大等缺陷，分别提出了快速DTW算法和端点松动的DTW算法，仿真结果比较理想。继而研究了基于HMM的语音识别系统。针对HMM在实际应用中的优化计算问题，包括初始模型选取，定标等进行了深入的分析与探讨。针对传统定标仍能溢出的问题，给出了无溢出的参数重估公式。语音识别简介 1.1语音识别系统的分类语音识别是近年来十分活跃的一个研究领域。在不远的将来，语音识别技术有可能作为一种重要的人机交互手段，辅助甚至取代传统的键盘、鼠标等输入设备，在个人计算机上进行文字录入和操作控制。本文介绍了语音识别的基本流程、所用到的语音参数算法、语音识别的训练算法和识别算法做初步的探究，主要运用了特定人孤立词识别的DTW算法和非特定人识别的连续HMM算法的MATLAB识别系统。语音识别按说话人的讲话方式可分为孤立词(Isolated Word)识别、连接词(Connected Word)识别和连续语音(Continuous Speech)识别。孤立词识别是指说话人每次只说一个词或短语，每个词或短语在词汇表中都算作一个词条，一般用在语音电话拨号系统中。连接词语音识别支持一个小的语法网络，其内部形成一个状态机，可以实现简单的家用电器的控制，而复杂的连接词语音识别系统可以用于电话语音查询、航空定票等系统。连续语音识别是指对说话人以日常自然的方式发音，通常特指用于语音录入的听写机。显然，连续非特定人语音识别的难度要大得多，因为不仅有说话人口音的问题，还有协同发音、断字断句、搜索等问题，除了考虑语音的声学模型外还要涉及到语言模型，如构词法、文法等。从识别对象的类型来看，语音识别可以分为特定人(Speaker Dependent)语音识别和非特定人(Speaker Independent)语音识别。特定人是指只针对一个用户的语音识别，非特定人则可用于不同的用户。实际上，非特定人语音识别的初始识别率往往都比较低，一般都要求用户花一定的时间对系统进行训练，将系统的参数进行一定的自适应调整，才能使识别率达到满意的程度。非特定