基于dsp的语音识别技术研究.pptVIP

下载本文档

15
0
约4.15千字
约 30页
2017-09-09 发布于广东
举报
版权申诉

基于dsp的语音识别技术研究.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于dsp的语音识别技术研究

1、语音识别技术研究概况我国采用嵌入式芯片设计技术研发了语音识别专用芯片系统，这是国内研发的第一块语音识别专用芯片。芯片中包括了语音识别、语音编码、语音合成功能，可以识别30条特定人语音命令，识别率超过95％，其中的语音编码速率为16kbits/s。这些系统的识别性能完全达到国际先进水平。研发的成果已经进入实用领域，一些应用型产品正在研发中，其商品化的过程也越来越快。语音识别系统存在的难点问题首先，实现小词汇量语音识别系统最可靠的方法为孤立词语音识别。虽然孤立词语音识别较其他类型的语音识别成熟完善，基本可以达到使用要求，但在实际的具体系统应用环境中，仍存在一些影响因素使其识别率降低，孤立词语音识别存在的难点问题有： ①同一发音信号的随机性变化； ②环境噪声广泛存在易造成训练与测试环境不匹配致使系统性能严重下降； ③端点检测； ④环境将同一声波的传导、反射等对声音的能量存在很大影响； ⑤词与词的特征空间混叠。课题的研究内容课题研究的主要内容是通过在语音信号分析的基础上，对线性预测编码倒谱系数LPCC与MEL倒谱系数MFCC进行详细说明及分析选择DTW为识别算法。对程序进行仿真测试分析后，选择TMS320VC5416为系统的核心。 2、系统总体设计特定人的孤立词语音识别系统的总体设计方案是：通过VC++建立一个友好的人机互动界面，在界面中可以调用Matlab语言来进行软件算法的模拟仿真；可以通过串口来实现VC++与DSP的通信，通过界面来达到控制DSP的目的。通过麦克风对发音人的语音信号进行采集完成语音信号的二值化，然后再由DSP对语音信号进行模板识别并做出判断。系统设计总框图语音信号生成的数学模型语音信号分析是语音信号处理的前提和基础，只有分析出可表示语音信号本质特征的参数，才有可能利用这些参数进行高效的语音识别，而且语音识别率的高低，也直接取决于对语音信号分析的准确性和精确性。由于声带有节律地冲开与闭合一系列振动，气流通过声门形成一系列“气喷”造成空气稠密和稀疏相间的动荡状态而形成声波，即声门波。此声门波再经喉腔、咽腔、口腔、鼻腔等共鸣体的放大与滤波，就成为人的嗓音，即人声。语音生成可以分为三个部分，分别为:激励系统（在声门以下，负责产生激励振动）、声道系统（从声门到嘴唇的呼气通道）和辐射系统（语音从嘴唇辐射出去）。 1、激励模型激励模型一般分成浊音激励和清音激励来讨论。发浊音时，由于声带不断张开和关闭，将产生间歇的脉冲波，这个脉冲波的波形类似于斜三角形的脉冲，它的数学表达式如下：式中，N为斜三角波上升部分的时间，N为其下降部分的时间。 2、声道模型目前最常用的有两种声道建模方法。一是“声管模型”,把声道视为由多个等长的不同截面积的管子串联而成的系统；另一种是把声道视为一个谐振腔，称为“共振峰模型”。一般采用级联型共振峰的全极点模型：式中，N是极点个数，G是幅值因子，a、k是常系数。 3、辐射模型从声道模型输出的是速度波，而语音信号是声压波，二者之倒比称为辐射阻抗ZL，其z变换为R(s)。辐射阻抗的近似公式如下：式中，这里，a是口唇张开时的开口半径，c是声波传播速度。综上所述，完整的语音信号的数学模型可以用激励模型、声道模型和辐射模型的串联形式来表示。即：其中U (s)为激励信号。 3、系统硬件设计 ·音频采集模块 ·内部存储器设置 ·外部存储器扩展 ·数据采集与传送模块音频采集模块: 采用了 TI 公司推出的一款高性能立体声音频 Codec 芯片TLV320AIC23B，内置耳机输出放大器，支持 MIC 和 LINE NI 两种输入方式，且对输入和输出都具有可编程增益调节。设置步骤: 1.设置 MP /MC =0，使芯片工作在微计算机方式下。 2.设置 OVLY=1，使片内的 0x80-0x7FFF 既映射在程序区，又映射在数据区。 3.设置 DROM=1，以便在数据区访问片内的 ROM 区。外部存储器扩展: 本系统扩展了两块64K×16bit的SRAM(IS61LV12816)和一块256K×16bit的FLASH(AM29LV808)来增加系统存储