基于DSP高速实时语音识别系统设计与实现.docVIP

下载本文档

4
0
约3.3千字
约 6页
2017-08-31 发布于安徽
举报
版权申诉

基于DSP高速实时语音识别系统设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于DSP的高速实时语音识别系统的设计与实现实时语音识别系统中，由于语音的数据量大，运算复杂，对处理器性能提出了很高的要求，适于采用高速DSP实现。虽然DSP提供了高速和灵活的硬件设计，但是在实时处理系统中，还需结合DSP器件的结构及工作方式，针对语音处理的特点，对软件进行反复优化，以缩短识别时间，满足实时的需求。因此如何对DSP进行优化编程，解决算法的复杂性和硬件存储容量及速度之间的矛盾，成为实现系统性能的关键。本文基于TMS320C6713设计并实现了高速实时语音识别系统，在固定文本的说话人辨识的应用中效果显著。 1 语音识别的原理语音识别的基本原理框图如图1所示。语音信号中含有丰富的信息，从中提取对语音识别有用的信息的过程，就是特征提取，特征提取方法是整个语音识别系统的基础。语音识别的过程可以被看作足模式匹配的过程，模式匹配是指根据一定的准则，使未知模式与模型库中的某一模型获得最佳匹配。 1.1 MFCC 语音识别中对特征参数的要求是： (1) 能够有效地代表语音特征； (2) 各阶参数之间有良好的独立性； (3) 特征参数要计算方便，保证识别的实时实现。系统使用目前最为常用的MFCC(Mel FrequencyCepstral Coefficient，美尔频率倒谱系数)参数。求取MFCC的主要步骤是： (1) 给每一帧语音加窗做FFT，取出幅度； (2) 将幅度和滤波器组中每一个三角滤波器进行Binning运算； (3) 求log，换算成对数率； (4) 从对数率的滤波器组幅度，使用DCT变换求出MFCC系数。本文中采用12阶的MFCC，同时加过零率和delta能量共14维的语音参数。 1.2 DTW 语音识别中的模式匹配和模型训练技术主要有DTW(Dynamic Time Warping，动态时间弯折)、HMM(HideMarkov Model，隐马尔科夫模型)和ANN(Artificial Neu-ral Network，人工神经元网络)。 DTW是一种简单有效的方法。该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别中出现较早、较为经典的一种算法。DTW算法的原理是计算两个长度不同的语音之间的相似程度，即失真距离。设测试语音和参考语音用T和R表示，他们分别含有N帧和M帧的语音参数。本文中每帧语音的特征参数为14维，因此T，R分别为N×14和M×14的矩阵。把测试语音的各个帧号x=1～N在一个二维直角坐标系中的横轴上标出，把参考语音的各帧号y=1～M在纵轴上标出，通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格，网格中的每一个交叉点(x，y)表示测试模式中某一帧号与训练模式某一帧的交叉点，对应于两个14维向量的欧氏距离。DTW算法在于寻找一条通过此网格中若干交叉点的路径，使得该路径上节点的路径和最小。算法示意图如图3所示。 2 系统硬件环境本系统的核心芯片为TI公司的32位浮点数字信号处理器TMS320C6713。其时钟频率最高可达300 MHz，处理能力可以高达1 336 MIPS和1 000 MFLOPS。由于256 kB的片上RAM无法满足多路信号处理时的空间需求，系统通过EMIF(External Memory Interface，外部存储器接口)扩展了32 MB的外部SDRAM，并采用EDMA(External Direct Memory Access，扩展的直接存储器访问)方式对这些外部空间进行访问。 TMS320C6713有2个McBSPs(Multi-channel Buff-ered Serial Port，多通道缓冲串口)，每个McBSP，可与多达128个通道进行收发。本系统中采用McBSP0实现数字语音信号到DSP的输入，DSP进行实时判别后输出结果。 3 软件实现由于TMS320C6x系列的C语言编译器的效率可达汇编语言的70％～80％，并且C语言具有开发周期短、可维护性好、可移植性好、可继承性好等优点，所以软件采用C语言实现。 3.1 软件流程测试中采用10个参考模板，每个模板由相应的参考语音中2 s的语音数据训练而成。识别策略为每路积累2 s的接收语音数据后与逐个参考模板进行匹配，如果经由DTW运算所得的距离值小于特定的门限，就判决已匹配。如果不匹配，就继续接收匹配，超过8 s匹配不上，就放弃。软件流程框图如图5所示，其中语音数据的采样率为8 000 Hz，每帧取256个采样点，即32 ms的数据为一帧。程序调试通过后，采用CCS对其实时性进行分析。CCS(Code Composer Studio，代码编译器)是TI公司提供的软件开发环境。他扩展了基本的代码生成工具，集成了调试和实时分析功能。在CCS下，程序通过Wint