数字信号处理作业之语音识别小论文51125.docVIP

下载本文档

11
0
约1.04万字
约 17页
2016-10-07 发布于江西
举报
版权申诉

数字信号处理作业之语音识别小论文51125.doc

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数字信号处理作业之语音识别小论文51125.doc

绪论语言是人类交流信息的基本手段，在人们日益扩大的交流中占据着重要地位。在如今高度发达的信息社会中用数字化的方法进行语音的传送、储存识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一随着信息科学技术的飞速发展，语音信号处理的研究也日益显示出它的要性，并取得了重大进展。大体上说，语音信号处理技术可以分为以下四个面:即语音编码，语音合成、说话人识别和语音识别等。语音压缩编码是压语音信号便于传输通信和保密;语音合成系统是模仿和代替人口的发音功能语音识别系统则是模仿或代替人耳的听觉功能，说话人识别系统属于生物识技术的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数识别说话人身份的技术。与语音识别不同的是，说话人识别利用的是语音信中的说话人信息，而不考虑语音中的字词意思，它强调一说话人的个性;而音识别的目的是识别出语音信号中的言语内容，并不考虑说话人是谁，它强共性。随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展己经越来越深入地影响并改变着我们每个人地生活和工作方式，这同时也对音信号处理的研究工作提出了更高的要求，它在各方面的进展也令人瞩目。 1．语音识别概述语音识别是试图使机器能“听懂”人类语音的技术。语音识别的作用是将语音转换成等价的书面信息，也就是让计算机听懂人说话。作为一门交叉学科，语音识别又是以语音为研究对象，是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域，甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解)，其最终目标是实现人与机器进行自然语言通信 1.1　国外研究历史及现状语音识别的研究工作可以追溯到20世纪50年代。1952年ATT贝尔实验室的Audry系统，是第一个可以识别十个英文数字的语音识别系统。20世纪60年代末、70年代初出现了语音识别方面的几种基本思想，其中的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术，有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。20世80年代语音识别研究进一步走向深入:其显著特征是HMM模型和人工神经网络(ANN)在语音识别中的成功应用。90年代，在计算机技术、电信应用等领域飞速发展的带动下，迫切要求语音识别系统从实验室走向实用。最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系统。这些系统具有说话人自适应能力，新用户不需要对全部词汇进行训练，便可在使用中不断提高识别率。 1.2 国内研究历史及现状我国在语音识别研究上也投入了很大的精力，国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项，我国语音识别技术的研究水平已经基本上与国外同步。 2. 语音识别的流程根据对输出观测值概率的不同描述，HMM(隐式马尔可夫链)可分为离散HMM（DHMM）和连续HMM（CHMM），两者相似，不同的是CHMM使用连续概率密度函数计算状态概率。而DHMM则使用的是离散的矢量量化（vector quantization，VQ）计算状态概率。在基于DHMM的非特定人语音识别过程中语音信号先被分成若干音框（帧），每个音框用一个特征向量参数表示，然后将语音特征参数向量的时间序列矢量化，此时每一个音框的语音信号变成VQ码本，用码本训练HMM，最后测试识别率。 3. 语音信号分析方法分类时域特征直接从时域信号计算得到，反应了语音信号时域波形的特征。如短时平均能量、短时平均过零率、共振峰、基音周期等。频域及倒谱域特征由时域信号进行频谱变换得到，反映语音信号的频域特性包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱。听觉特征指不直接对声道模型进行研究，而是从人类听觉系统对语音的感知特性来刻画语音信号的特征。 4. 短时分析技术语音信号是非平稳时变信号语音信号的特性是随时间而变化的幸运的是具有短时平稳性短时间范围内其特性基本保持不变（缓慢变换），即短时相对平稳——准平稳过程短时分析技术即在对语音信号进行分析时，将语音信号分为一段一段，利用平稳信号的分析方法对每一分段进行处理每一分段成为一“帧”：一般10~30ms为一帧短时分析的不足对语音识别，应采用HMM来分析，以处理语音信号的瞬变和非平稳特性 5. 基于Mel频率的倒谱MFCC 生理支持根据人类听觉系统的特性，人耳分辨声音频率的过程犹如一种取对数的功能，基于此，出现了Mel频率的倒谱系数(MFCC)MFCC: Mel-Frequency Ceps