基于DTW的孤立词语音信号识别方法研究.docVIP

下载本文档

23
0
约1.26万字
约 23页
2019-01-13 发布于广西
举报
版权申诉

基于DTW的孤立词语音信号识别方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

武汉工程大学（硕、博士）研究生试卷本考试课程名称信号分析与处理考试考查学科专业检测技术及自动化装置学号 xxx04025 姓名金璐题目序号 1 2 3 4 5 6 7 8 9 10 总计评卷教师各题分数 PAGE 19 基于DTW的孤立词语音信号识别方法研究 1 绪论随着计算机技术的飞速发展，电脑己经走入千家万户，给人类带来了无穷的便捷。与此同时，人们对计算机的智能化要求也越来越高，当然最突出的需求体现在人机接口上。如果能实现人机之间的直接对话，让“机器”听懂人的语言，并根据其信息去执行人的意图，那么这无疑是最理想的人机智能接口方式，因此语音识别作为一门极具吸引力的学科应运而生，很多专家指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。 1.1 研究背景及意义语言在人类的的智能组成中充当着很重要的角色，人与人之间的交流和沟通大部分是通过语言的方式有效的完成。作为人与人之问交流最方便、自然、快捷的手段，人们自然希望它成为人与计算机交流的媒介。随着数字信号处理及计算机科学的飞速发展，人们对实现人机对话产生越来越迫切的要求，使得语音识别技术近年来得到了迅速的发展，语音识别技术的研究进入了一个比较成熟的时期。语音识别是一门交叉科学，它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。也是人机交互最重要的一步。 1.2 语音识别的国内外研究现状通过语音传递信息是人类最重要，最有效，和最方便的交换信息的形式，语音识别主要指让机器转达人说的话，即在各种情况下，准确的识别出语音的内容，从而根据其信息，执行人的各种意图。广义的语音识别包括说话人的识别和内容的识别两部分。这里所说的语音识别，是指内容识别方面。采用计算机进行语音识别到现在已经发展了50年。从特征参数上改进，采用各种办法进行语音增强是一个研究方向，但是到目前为止，还没有一种办法能把语音信号完美地从噪音环境提取出来。语音识别有广泛的商业化运用前景，主要可以分为通用场合和专用场合两个方面。 1.3研究内容本文研究的主要内容是结合模式识别的基本理论，研究DTW孤立词语音识别的问题，实现0-9共10个数字的模式匹配及识别。分析了语音信号的预处理，特征提取及DTW算法实现。 2 语音识别技术 2.1 语音识别系统结构孤立词语音识别是对特定的不连续的词语作为处理单元。语音识别系统的基本组成一般可以分为预处理模块、特征值提取模块及模式匹配三个模块。如图2.1所示为语音识别系统结构框图。样本语言样本语言预加重加窗分帧端点检测特征提取 DTW模式匹配待测语音预处理特征匹配识别结果图2.1 语音识别系统结构框图从图2.1的系统整体架构可以看到，建立基于DTW的语音识别系统可分为两个阶段,即训练阶段和识别阶段。首先由用户通过麦克风输入语音形成原始语音,然后系统对其进行预处理。预处理包括预加重，加窗分帧和端点检测三个过程。系统的前端采用了端点检测,目的是在一段语音信号中确定起点和终点。在特征提取部分,本系统采用了MFCC作为特征参数,用于有效地区分不同的说话人。在训练阶段,通过说话人多次重复语音,本系统从原始语音样本中去除冗余信息,提取说话人的特征参数并存储,在此基础上建立了参考模板和说话人模型。在识别阶段,待测信号与参考模板中进行模式匹配, 经过一定的相似性准则得出识别结果。 2.2 语音信号预处理图2.2是语音信号的预处理的流程图。从图2.2可以看到预处理模块包括预加重，加窗分帧和端点检测。前级预加重、加窗分帧及端点检测是语音识别的准备工作，每一个环节对整个识别系统的性能有着重要的影响。前级预处理主要是对信号进行一定的滤波和分帧；加窗分帧就是将语音信号进行分段处理，使语音信号连续并保持一定的重叠率：端点检测是确定语音有用信号的起始点与终止点，并通过一定的手段处理，将没有意义的语音信号去除，从而减少语音匹配识别模块的运算量，同时也可以提高系统的识别率。预处理不合理或语音起止点及终止点判别不够准确都会使后续的特征矢量提取及模式匹配过程等工作受到很大的影响，甚至达不到语音识别的效果，因此预处理工作作为语音识别的第一步工作，必须达到所需的要求，为下一步的特征参数提取做好铺垫。开始开始预加重 a=0.95 分帧，汉