为残疾人提供的语音识别.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
为残疾人提供的语音识别

为残疾人提供的语音识别 摘 要 在过去的几年里,多亏了数据处理的演变,我们经历了一个语音识别系统很重要的演变。所开发的系统 取决于应用程序,它具有孤立词识别和系统的连续语音识别系统。孤立词的识别的系统作为声带命令的应用而连续语音识别系统的系统主要应用有类似的声乐听写。 对于残疾人士缺少数据基础和多样性的发声障碍是建立可靠的语音识别系统的重大障碍,这也说明为残疾人建立的语音识别系统在市场上所遇到困境。 这项工作发展在于适应一些现有语音识别系统为那些有发声障碍的人。 对于孤立词识别系统,我们使用动态方法的培训,这使得该系统有可能逐步适应用户在他的使用过程中。 这种方法有可能使残疾用户使用该系统,不用通过长时间的培训,而这培训一般是沉重,对这些人是痛苦的。在同等测试条件它还允许识别系统使用一个训练基地。 对于连续识别系统?,我们使用两种方法: 1- 一个为残疾人士动态适应的连续语音识别系统的模型。这种方法使我们能够让用户适应的识别系统并可以像正常人一样说话。 2 –为识别使用一个独立的语言分割(ALISP)。这种方法包括使用之间的对应关系ALISP分割和语音和模型ALISP的段,以建立识别系统。 对于字识别系统,我们使用了DTW的动态培训。 关键词:言语;认知;适应;充满活力;残疾;培训 绪论 在非特定人语音识别系统,培训令扬声器变化要求发言者广泛的人参与。?这个令扬声器变化更重要的是当发言者有发音障碍。特别是,残疾人很难有独立的扬声器电话模型。 在这项工作中,我们使用的手机模型都是从独立扬声器训练有素的BREF数据库中选取适应每次系统识别正确的句子模型。 我们第一次提出的方法被运用于最大似然线性回归(MLLR)和动态时间规整(DTW的),然后我们提出了实验结果和结论。 2 动态时间规整 在这种类型的语音识别技术测试数据被转换为模板。识别过程,然后由语音输入与匹配存储的模板。从输入模式模板中最低的距离测量模板是已识别的词。最佳匹配(最低距离度量),是基于在动态规划。这就是所谓的动态时间规整(DTW的)文字识别者。 为了了解DTW,需要两个概念被处理 *特点:在每个信号信息必须以某种方式表示。 *距离:一些度量形式已被用于为了获得匹配的路径。 有两种类型: o地方:在一个信号特征及其他特点之间计算差异。 o全球:整体计算整个信号之间的区别和另一个信号可能不同的长度。 由于特征向量可能有多个元素,一种计算局部距离的方法是需要的。两个特征向量之间的距离测量采用的是欧氏距离度量来测量。因此,特征向量之间的信号特征信号1和2给出了向量X的Y局部的距离, 算法: 言语是随时间变化的过程。因此,对同一个词会有不同的发音周期,与具有相同的周期同一个词在话语中会有所不同,这是由于不同地区的话,人们讲的时候速度不同。要获得两个全球距离的话语模式(作为一个向量序列为代表)一个时间序列必须执行。 这个问题可以参考下图0,在这种时候,时间“矩阵是用于可视化的路线。对于所有的时间序列例子参考模式(模板)上升侧面和底部的输入模式去。在本图中输入SsPEEhH“是一个噪音的模板版本讲话”。 这个想法是,h是一个更接近匹配的H比其他任何模板中。输入SsPEEhH“将在所有模板进行匹配该系统的信息库。最佳匹配的模板的其中之一是最低的距离有路径调整到模板输入模式。给一个路径一个简单的总体远程评分是简单的去弥补局部路径距离的总和。 上图显示了测试和训练模式的时间一致。 为了推出公式和减少过度的计算,我们在传播方向上作出了一定的约束。下面给出了这个约束。 *匹配路径不能及时向后 *输入的每一个框架必须用在匹配路径上 *通过增大总体范围,现代远程教育重要性被凸显了。 该算法被称为动态规划(DP)。 当应用到基于模板的语音识别,它常常被称为动态时间规整(DTW的)。DP是保证找到通过矩阵的最低距离路径,而最大限度地减少计算量。动态规划算法工作在时间同步的方式:动态规划算法工作在时间同步的方式:每个时间被考虑为连续时间矩阵(相当于列处理输入帧逐帧),因此,对于一个长度为n的模板,最大数量的路径在任何时候被认为是n。 如果D(ij)是总体距离可达(ij)和在(ij)地方距离,是用d(ij)。 给出D(1,1)=d(1,1), (这是初始条件),我们有一个有效的计算D(i,j)的递归算法的基础上。最后全球距离d(n,N)为我们提供了模板的整体比对分数与输入。输入单词,然后确认为这个词所对应的最低得分匹配模板。 3 最大似然线性回归 MLLR最初是为适应扬声器,但同样可以应用于环境不匹配的情况。高斯为HMM的参数设置转换矩阵估计这最大限度地适应数据的可能性。本集的转换相对比较小的系统中高斯总数等多项共享相同的高斯变换矩阵数字。这意味着,转换

文档评论(0)

yaoyaoba + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档