基于TMS320C6678的语种识别并行算法设计与实现.docx

下载文档

3
0
约6.2千字
约 4页
2017-02-25 发布于天津
举报
版权申诉
保障服务

基于TMS320C6678的语种识别并行算法设计与实现.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于TMS320C6678的语种识别并行算法设计与实现吉立新，刘伟伟，李邵梅时间:2012年12月03日来源：电子技术应用2012年第10期摘要：针对/search/?q=语种识别语种识别在实际应用中的实时性需求，在分析语种识别算法原理和/search/?q=多核DSP多核DSP任务并行的基础上，设计了一种基于/search/?q=TMS320C6678TMS320C6678的语种识别算法并行实现方法。该方法实现了任务级并行流水和核间高效通信。实验结果表明，该方法可靠、有效，并且使该系统至少能够完成132路的实时识别任务。关键词：语种识别；多核DSP；TMS320C6678；并行处理语种识别是计算机通过分析处理一个语音片段，判别其所属语言种类的过程[1]。语种识别的任务在于快速准确地识别出语言的种类，自上世纪90年代以来，已经成为通信和信息领域一个新的学科增长点，在多语种信息服务、机器翻译及军事安全等领域都有着广泛的应用前景[2]。语种识别走向实用化，不仅要有令人满意的识别性能，其实时处理的效率也是必须要考虑的因素。因此，设计能够实现多路实时处理的语种识别系统是语种识别迈出实用化的关键一步。本文针对语种识别系统算法的特点，设计了一种基于TI多核处理器TMS320C6678的语种识别并行实现方法，实现了任务级的并行流水处理和核间的高效通信。1 平台介绍TMS320C6678是基于TI公司最新DSP系列器件 TMS320C66x、采用8个1.25 GHz DSP内核构建而成的业界首款10 GHz DSP，可在10 W功耗下实现160 GFLOP(Giga-Floating Point Operations per Second)浮点计算性能[3]。不仅能整合多个 DSP 以缩小板级空间并降低成本，同时还能减少整体的功耗要求，充分满足现代数字信号处理日益增长的需求。本文语种识别系统的开发在TI公司的最新DSP集成开发环境CCSv5(Code Composer Studio)中基于浮点运算设计完成。2 基于TMS320C6678的语种识别算法优化2.1 语种识别算法分解本文的语种识别系统是基于区分性Model Pushing算法[4]进行构建的，并且对特征参数进行了fDWNAP[5-6]处理，因此系统的测试阶段由特征提取模块、fDWNAP模块及对数似然得分模块3个模块构成，如图1所示。(1)特征提取模块特征提取模块的任务包括语音信号预处理、MFCC提取、RASTA滤波、SDC扩展、VAD检测、CMS处理、高斯化等过程，该模块结束即输出56维的特征参数，其需要存储的参数包括汉明窗和梅尔滤波器组总共不到2 KB。(2)fDWNAP模块该模块的工作是对所提取的56维特征参数进行处理，以去除与语种无关的各种干扰信息，达到净化语种特征参数的目的。如参考文献[6]介绍，该模块首先将特征参数映射至SVM的高维空间，然后利用训练得到的投影矩阵计算映射后的参数中所包含的干扰信息，再将干扰信息映射至特征空间，从而进行去除。该模块中事先训练得到的投影矩阵P=I-wwT，wwT是对称矩阵，因此存储wwT需要7 MB的存储空间。另外，K-L变换矩阵D是对角矩阵，需要112 KB的存储空间。(3)对数似然得分模块如参考文献[4]所述，本模块主要任务是利用训练得到的各语种GMM模型对语音特征参数计算对数似然得分进行输出的判决。本模块需要存储训练阶段得到的各目标语种的GMM模型及非目标语种的GMM模型，即针对每个语种需要存储2个GMM模型。所有的GMM模型只是均值矢量不同，高斯混元权重及协方差矩阵都是共享UBM模型的。以L个语种为例，需要存储2L个均值矢量，即需要224L KB的存储空间，共享的高斯混元权重需要2 KB的存储空间，协方差矩阵由于是对角化的只需要112 KB的存储空间。2.2 算法实时性分析首先对各模块的运算实时性进行分析。以30 s的语音(8 000 Hz采样，帧长25 ms，帧移10 ms)为例，后端模型使用单个语种模型，利用CCSv5的环境进行软件仿真得到各模块处理所花的时钟周期数，然后按照TMS320C6678芯片的单个内核的工作主频(1.25 GHz)计算得到处理时间，结果如表1所示。由表1可知，整个语种识别系统测试阶段，在算法代码未经任何优化的情况下，一段30 s的语音在单个TMS320C66x CPU内核上的处理时间约为22.3 s，结果非常不理想，并且特征提取模块和对数似然得分模块耗时较多。为此，本文从两个方面对代码进行了优化：一是算法本身的约减，二是算法基于TMS320C6678平台的优化。2.3 算法优化(1)算法约减计算过程的优化主要对语种识别系统中对数似然得分模块的算法做约减。对数似然得分过程就是利用已经训练好的各语种