- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于迭篡封方法的置攮有关.鲢婴建攥
徐波张亮黄泰翼
中科院自动化研究所模式识别实验宣,邱编;100080
e_ail:xuboeprldee3.iv.ac.cn
1、问题背景
语境有关的声学模型是针对语流中的协调发音现象进行建模,从而提商盈童迟剐率的
一种非常有效的途径。但在实际中,要反映这种协同发音现象所需的模型个数是巨大的。
对汉语来说,即使我们对声韵母按发音部位或发音方式进行分类,再加上声调之间的相互
调制,其数目也是几万个。而在实际的训练过程中,由于数据量的约束,是不可能建立这
么多的模型。即使存在满足需要的巨大语音库,也会遇到存储量和计算量的问题。因而最
大限度地利用有限的数据,训练出适度规模的可靠而又准确的模型是非常重要的。
本文采用连续密度的m毗作为基本模型,结合塑蓝骚意学的特点研究了一种自顶向下
共享,叉可以根据输出分布相似情况和可训练度灵活地决定模型个数。
2、方法介绍
语音学家们早就对音素受语境的影响作了许多研究,并提出了一些语音学的规则,但
是最初这些规则在语音识别中的应用并不是很成功。首先这些规则大多是基于人类的感知
而不是根据声学的实际数据而得到的, 所以这些规则反映的是一些全局的变异而忽略了一
些细微的变化。这种忽略可能对人类感知无关紧要,但对语音识别器来说可能是致命的。
另外这些规则有比较笼统的,也有比较具体的;有非常重要的,也有不十分确定的个别现
象,这造成在这些规则的具体运用上的困难;另外一方面,许多实验已经证明,完全依赖
计算机来判断声学数据的相似度会带来某种程度上的模型区分性的降低。一种好的思想就
是在语音学知识的宏观指导下再根据实际语音数据的声学相似度进行模型的分裂和细化。
基于决策树的建模方法正是体现了这种思想。这种方法可以简单地如下所述:
a. 对每一个单音子的每一个输出分布创建一个根节点:根节点包含该单音子对应输出分
布的语音数据及这些数据的模型估算;从根节点开始对所有所有数据进行分裂;
b. 尝试对决策树中的所有没有分裂结束韵叶节点按照二元语境问题集中的所有问题把数
据分成两类,计算其测度的变化,择其测度变化最大的一个问题作为当前节点决策:
c 重复步骤b,直至所有叶节点上的训练数据不充分或分裂后测度增加小于某~门限;
d.过程结束
这种方法有三个个关键点:基于语音学知识的二元语境问题集的设计、分裂测度选择
和分裂结束准则。在本论文中,二元语境问题集的设计吸收了语音学的一些知识和我们的
一些经验,测度则采用了与识别直接挂钩的H删输出概率。分裂结束准则根据经验值确定。
该种方法还比较好地解决了训练集中未出现的三音子处理问题。通过回溯分裂决策树,我
来替换。
421.
3、二元语境问题集设计
同单纯建立三音子模型不同,控制模型分裂过程的二元语境问题集需要对语音学上的
一些分类方法进行组合,由于没有系统的该方面资料可以借用,我们只能对一些常用分类
方法加以组合和分解。例如有关爆破音本身,我们进一步分解出两个问题:即是否是送气
爆破音还是不送气爆破音?又如对韵头音,我们根据发音方式和发音部位又进~步组合成
撮口呼、开口呼和闭口呼等。
针对这些分类体系加上一些我们的经验,最后对左右语境有关模型设计了约四十八个
问题,加上声调共计64个。典型的如:04右边詹万昌编结旁留.’妒∥,Q40左:兹是万番
爆破音(L:BPY)々Q4l左边是否是不送气曝破音(L:BSQBPY)2等
4、非特定人语音识男q实验
在本实验中,我们以65个模型作为基本模型进行了实验,下表列出其中的一个结果。
从表中可以看到,决策分裂模型比起65模型的识别器来说,识别率有很大幅度的提高,尤
其是声母的分裂决策;同传统的138个模型相比,不但识别率有一定的提高,更重要的是
其输出分布数将近减少100个,从而大大减少了对训练数据量的需求。因为在此种情况下,
由于模型之间输出分布的共享,模型个数已经并不重要。
文档评论(0)