语音识别字符分割算法_原创剖析.docVIP

下载本文档

5
0
约3.53千字
约 9页
2017-03-25 发布于湖北
举报
版权申诉

语音识别字符分割算法_原创剖析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

5.设计方法 5.1概述 5.2硬件系统的设计语音信号预处理预加重预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。在计算机里用具有6dB/频程升高频特性的预加重数字滤波器来实现，一般是一阶的FIR数字滤波器: 为预加重系数，值接近于l，在0.9和1之间，典型值为0.94。预加重的DSPBuilder实现：为了便于实现，将上式中的一阶FIR预加重滤波器用差分方程表示为: 其中，为原始语音信号序列，N为语音长度，上面的公式显示其在时域上的特性。又因为0.94接近于15/16，所以将上面的式子变为除以16可以用右移4位来实现，这样就将除法运算化简为移位运算，降低了计算复杂度。在后面的模块设计中，也乘以或者除以一些这样的数，这些数为 2的幂次，都可以用移位来实现。预加重的硬件实现框图如下: 预加重实现框图 DSP Builder中的图形建模为：预加重滤波器的DSPBuilder结构图分帧语音信号是一种典型的非平稳信号，其特性随时间变化，其在很短的时间内是平稳的，大概为1小20ms，其频谱特性和物理特征可近似的看做不变，这样就可以采用平稳过程的分析处理方法来处理。分帧的DSP Builder实现：语音信号在10到20ms之间短时平稳(这样可以保证每帧内包含1一7个基音周期)，也就是说选取的帧长必须介于10到20ms之间，此外，在MFCC特征提取时要进行FFT变换，FFT点数一般为2的幂次，所以本文中选择一帧长度为16ms，帧移为1/2帧长，这样一帧就包含了16KHz*16ms=256个点，既满足短时平稳，又满足FFT变换的要求。由于采集的语音是静态的，语音长度已知，很容易计算出语音的帧数，但是在硬件上或实时系统中，语音长度是无法估计的，而且还要考虑存储空间的大小和处理速度，采用软件实现时的静态分帧方法是行不通的，可以利用硬件本身的特点进行实时的动态分帧。为了使帧与帧之间平滑过渡，保持连续语音流的自相关性和过渡性，采用交叠分帧的算法。帧移取1/2帧长，即128个数据点当作一个数据块。FIFO1大小为一帧语音长度，分成两个数据块，预加重后的数据写入这个FIFO。为了实现帧移交叠，在FIFO1读数据时，同时再用FIFO2保存起来，当FIFO的一块数据读完以后，紧接着从FIF22读出这一块的副本。写入的一块数据，相当于被重复读出2次，所以FIFO1的读时钟频率设计为写时钟频率的2倍，而FIFOZ的读写时钟频率和FIFO1的读时钟频率相同。分帧以后的数据在图中按时间标号为1、2、2、3.··…，1、2为第一帧，2、3为第二帧，以此类推。分帧实现框图 FIFO1的写信号一直为1(写允许)，等到写完第1块(128点)再允许读。当FIFO1读第1块数据的时，FIFO2保存第1块的数据，两者时钟频率一致，同时FIF01也在写第2块数据。FIFO1读完第1块数据，FIFO2里为第1块数据， FIFO1中第2块数据写了一半，此时禁止FIFO1读，并使能FIF02的读信号，从FIFO2中将第1块数据再读一遍，读完时第2块数据己经完全写入FIFO1，再允许FIFO1读，同时禁止FIF02读，如此循环。图中，数据选择器就是为了实现两个FIFO的读出数据选通，第1次数据为FIFO1的读出内容，第2次数据为 FIFO2读出内容，这样就实现将一块数据内容重复输出两次，读完两次的同时，写完下一块内容。分帧的DSPBullder实现为: 分帧的DSPBuilder的结构图 Inc模块是为了让FIFO1写入128个数据后才产生读使能信号，其时钟频率与写时钟相同。Counter是模256的计数器，当计数值在0到127之间时输出FIFOI的值，128到255之间输出FIFO2的值，时钟频率与读时钟相同，为写时钟的两倍。DMUX为数据选择器。分帧后，波形平滑了许多，略微有了一点延时，这是因为FIFOI的读使能比写使能晚了128个采样点。但这样实现的实时分帧，与静态分帧相比，速度提高了很多，有效的减少了存储空间的浪费。加窗加窗的目的是使主瓣更尖锐，旁瓣更低。语音信号数字处理中常用的窗函数是矩形窗和汉明窗，本文选取的是汉明窗。因为矩形窗虽然有较高的频率分辨率，但它的频谱泄露比较严重，相比较来说，虽然汉明窗频率分辨率没有矩形窗高，但它有更平滑的底通特性，能够在较高程度上反映短时语音信号的频率特性。汉明窗公式如下(其中N为帧长): { 设分帧后的信号为S(n)，加窗就是窗函数诚w(n)来乘分帧后的信号S(n)，从而形成加窗语音信号加