一种基于机器视觉的种族识别系统算法分析.docxVIP

下载本文档

3
0
约3.68千字
约 4页
2023-08-05 发布于广东
举报
版权申诉

一种基于机器视觉的种族识别系统算法分析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于机器视觉的种族识别系统算法分析电信网络下的语言识别系统需要时间需求。现在，基于实验室环境的通用系统平台不足，因此很难满足体积和大规模处理的需求。 1 gsv的测试基于GSV-SVM的语种识别系统 a)前段特征提取。它包括语音信号预处理和特征参数提取两个阶段 b)后端分类识别。它包括模型训练和待测语音分类判决两个阶段。训练阶段需训练用于产生GMM模型的通用背景模型(universal background model,UBM) 测试时,按上述相同方法得到测试语音段的GSV,然后将其输入到已训练好的SVM中进行分类判决。SVM的核函数采用度量GMM距离的Kullback-Leibler核函数(K-L核) 其中: 根据上述描述可知, 2 单片再生过程设计由于语种模型训练可由训练语料离线进行,因此本文提出的多路实时语种识别系统是针对测试阶段的实际应用场景提出的。此系统的总体架构如图3所示。其中,DSP选用TI公司提供的TMS320C6455 如图3所示,本系统设计可分为前端DSP处理部分和后端FPGA设计部分。其中,系统前端特征提取部分采用浮点DSP实现,输出的是45维语音特征参数,而后端部分采用FPGA定点设计实现。各个模块之间相互关系如下: 在系统初始化阶段,UBM、SVM、转换矩阵及锚超矩阵等相关模型参数在训练阶段得到,均由计算机离线完成,并首先存储于计算机上。在测试时,由于这些参数需要的模板数目较大,难以在FPGA片上进行存储,因此将其选择存储于片外的DDR2上。这样就需要对DDR2的接口时序和访问机制进行研究和设计。基于此,本文引入一种基于MicroBlaze接口核MPMC(multi-port memory controller) 在对一段语音进行测试时,其测试流程如下:a)从电信网中获取该语料,将该段语料送入到前端特征提取模块进行浮点DSP运算,得到该语料的声学特征参数,并将得到的声学特征参数由EMIF接口送入FPGA的外部通信单元;b)外部通信单元则根据总线复用情况,将这些特征送入GSV生成模块以计算GSV;c)将其经由总线管理单元和DDR2接口存储于DDR2的制定位置中;d)特征转换、空间投影模块和SVM分类模块从DDR2中读取该路测试语音的GSV和存储好模型参数,分别进行SCV的计算和SVM的分类判决;e)将SVM输出结果由外部通信单元反馈给DSP并输出。根据FPGA设计特点,系统在设计中采用各模块间及模块内部均为流水线设计的结构,采用这种架构能最大限度地提高其并行处理的能力。由于每个语音帧帧长为25 ms,帧偏移为10 ms,因此,为了达到模块间的流水处理,GSV生成模块必须在10 ms内计算完一帧,以完成下一帧数据的运算。之后的模块是针对一定时长语音得到的GSV进行处理,因此,GSV生成后面的模块实时性则取决于语音段的时长。在电信网络转接系统中,需要在尽量短的时间内进行语种类别的判断,而本文的语料库是针对时长为10 s和30 s的语音段进行测试,故GSV之后的模块设计实时性要求为最低10 s内处理完一路语音。 3 多实时语言识别系统的模拟结果分析 3.1 实验设施 3.1.1 语音时长的选取语料库为实验室采集的电话信道下的通话语音,采样频率为8 KHz,并经过16 bit量化处理。语料库包含汉语普通话、英语和日语共三个语种,共有1 500段时长10 s左右的语音段、3 000段时长30 s左右的语音段和1 500段时长3 min左右的语音段。其中10 s语音段中,每个语种各有500段,男、女各250段;30 s语音段中,每个语种各有1 000段,男、女各500段;3 min时长语音段中,每个语种各有500段,男、女各250段。本文的时长指实际话音内容所占用的时长。上述语音段均按照不同的说话人进行采集,各个语音段为单向通话语音,即每段语音仅含一个说话人的通话内容。语料库可分为训练集和测试集两个部分。其中用于训练UBM的语料选择为30 s时长的语音段,挑选方式为:首先从每个语种中挑选400段(男、女各200段),共1 200段,用于训练GMM-UBM模型;然后从30 s中剩余的语音段中,按语种各自挑选400段(男、女各200段),共1 200段,用于训练SVM的语种模型参数。测试阶段的语料包括两种时长:一种是30 s时长,即除去用于训练UBM和SVM后所剩余的语音段,即每个语种为200段(男、女各100段),共600段语料;另一种是上述的1 500段10 s时长的语料。 3.1.2 fpga模块的编写按照系统算法的实现流程,在Xilinx公司的ISE Design Suite 11.2平台下,使用Verilog HDL语言进行FPGA模块的编写,并结合DSP工具对结果进行验证。如前所述,DS