[2018年最新整理]孤立词语音识别中期报告.doc

下载文档 降价啦

5
0
约5.17千字
约 12页
2018-04-15 发布于浙江
举报
版权申诉
保障服务

[2018年最新整理]孤立词语音识别中期报告.doc

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[2018年最新整理]孤立词语音识别中期报告

1　课题研究的背景及意义国外的语音识别研究工作可以追溯到20世纪50年代ATT贝尔实验室开发的第一个能实现十个英文数字的语音识别系统。我国的语音识别研究起始于1958年，由中国科学院声学所利用电子管电路识别十个元音。直至1973年才由中国科学院声学所开始计算机语音识别。1986年3月我国高科技发展计划(863计划)启动，国家863智能计算机专家组为语音识别技术研究专门立项，每两年举行一次专题会议。现在我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势。国内有不少语音识别系统已研制成功。在孤立字大词汇量语音识别方面，最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。在连续语音识别方面，91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。在非特定人语音识别方面，有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。　　随着信息产业的迅速发展，人们倾向于使用高效，快捷，方便的电子产品。语音识别作为人机交互的一项关键领域，具备了实时，方便，快速等特点，在当今科学技术的发展上也有着日益重要的地位。在一些特定的环境或是对于一些特定的人，语音识别可以带来很大的方便。例如，驾驶员在高速行驶的汽车内电话拨号，飞行员在飞行过程中发出必要的命令等，都需要语音识别系统，另外语音识别也给失明者带来很大的帮助。２　课题任务　　探讨基于MATLAB的多个特定人孤立词语音识别的方法，期望在进行端点检测时，能进一步提高识别率。该设计要求采用TW算法。主要任务：理论分析，提出设计方案；语音采集；特征提取，形成训练集；特定人孤立词语音识别算法的程序实现。３　基本原理 3.1语音识别的基本原理　　语音识别系统本质上是一种模式识别系统，因此它的基本结构与常规模式识别系统一样，包含有特征提取、模式匹配、参考模式库等三个基本单元。图1为语音识别系统的原理框图。　　　　　　　　　　　　　　　　　　　图1 语音识别系统的原理框图　　　　根据对说话人发音方式的不同，语音识别研究的内容可以分为孤立词识别系统、连续字语音识别系统及连续语音识别系统。本次毕设研究的是孤立词语音识别。 3.2孤立词语音识别系统的设计　　孤立词语音识别系统指人在发音时，以单字的发音方式向语音识别系统输入语音，词语词之间要有足够的时间间隙，以便系统能够检测到始末点。采用这种方式的语音识别系统可以做到很高的识别率。图2为孤立词有语音识别系统的原理框图：　　　　　　　　　　　　　图2 孤立词语音识别系统 3.2.1语音信号的采集　　Windows 自带了一个录音机程序（简称录音机），通过它可以驱动声卡采集、播放和简单处理语音信号。语音信号的采集可以用麦克风直接录制人的语音，也可以通过音频线或者MIDI 线将收音机、电视机或磁带录机中的语音信号采集到计算机中。在录音机中可以进行简单的声音处理，如加大或降低音量，加速或减速，声音的反转或添加回音效果等。加速或减速的改变可以完成变音功能，反转可以达到对声音文件保密的功能。　　通过windows自带的录音器，分别由我和同学录入了2组数据（1人1组），每组10个音频文件，分别为从“零”到“九”的汉语发音。其中一组为参考模板，另外一组为测试模板。 3.2.2端点检测　　语音信号录制进来后，不论是识别孤立词还是识别连续词都必须做语音分段，即语音端点检测，找出语音段的开始和结尾，这可借助于语音信号的短时能量和过零率。有声音段的能量值较大，无声音段的过零率较高，因此可以通过计算短时能量大致判断语音的端点，然后使用过零率找到语音端点的相对精确位置，分解出每一个语音段。整个语音信号的端点检测可以分为四段：静音、过渡段、语音段、结束。系统中使用一个变量来表示当前所处的状态，在静音段，如能量或过零率超过了低门限，则开始标记起始点，进入过渡段。在过渡段，由于参数的数值比较小，不能确信是否处于真正的语音段，因此只要两个参数的数值都回落到低门限以下，就将当前状态恢复到静音状态。如果在过渡段中两个参数的任意一个超过了高门限，就可以确信进入语音段了。　　端点检测时，首先根据短时能量进行初步判断，此时对终点的检测已比较准确，但由于大多数声母是清声母，它的能量相当弱，依靠能量无法将其与无声段区分开，所以在进行起点检测时，很难仅仅通过短时能量进行判断，但对于清辅音而言，它的过零率明显高于无声段，所以可以根据短时过零率进一步准确检测。图3为端点检测的流程图：　　　　　　　　　　　图3 端点检测的流程图　　　　　　　　　图3 端点检测程序流程图 3.2.3特征提取　　由于直接采集得到的语音