- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于BW算法训练连续语音的关键技术
基于B_W算法训练连续语音的关键技术
李军,刘晓明,李龙
(大庆石油学院 计算机与信息技术学院,黑龙江 大庆,163318)
摘:。中图分类号:TN912.34 文献标识码: 文章编号:(HMM)的统计建模方法。又可细分为三类:离散HMM(DHMM)、连续HMM(CHMM)和半连续HMM(SCHMM)。本文中从提高语音建模精度的角度,以SCHMM[1]为例探讨建立语音模型的几个关键技术。
1 语音建模方法及问题
基于HMM的语音建模过程可以采用B_W算法[2]实现,但使用该算法建立语音模型应注意:
⑴ 计算溢出问题。采用B_W算法计算前后项系数时,状态转移概率是介于0和1的数,而概率密度输出函数通常都小于1,如果初始模型和训练语音存在较大的偏差,概率密度输出函数结果甚至远远小于1。因此经过多次递推的结果将导致前后项系数变得非常小,以至超出了计算机表示数值范围的下限,将本来非零的数值表示为机器零,从而造成计算的下溢,导致归一化结果出现错误[3]。
⑵ 训练样本差异问题。在连续语音训练中,要评估的语音单位参数是嵌在长短各异、内容千差万别的句子中,而B_W算法是从总体上评估语音帧序列对各状态的影响,因此对于不同的训练样本,计算出来的同一语音单位参数必然存在差异[4]。如果不采取适当的措施解决此问题,就无法训练出准确的语音模型参数。针对这两个问题提出了解决方案。
2 计算溢出问题
以基于SCHMM训练码本高斯均值为例,介绍如何在B_W算法中解决计算溢出问题,为讨论简单起见,只使用单模型和单样本进行训练。
设模型有L个状态S1-SL, 训练样本帧数为N,记为,码本数为J,输入语音的状态序列为X,为第个状态的初始状态概率,Auv为u状态向v状态的转移概率,为状态的概率密度函数,为状态第j个高斯函数的权重。
根据HMM参数的定义,计算高斯均值的B_W算法可采用如下步骤:
⑴ 为模型参数评估出一定的初值,这些初值可能是粗糙的。
⑵ 利用前后项算法求前项系数和后项系数,递推公式为
(1)
⑶ 计算第n帧在状态对j码本产生的概率密度,公式为
(2)
⑷ 计算第j个码本高斯函数的均值,公式为
(3)
⑸ 以新的均值(及其它新参数)为初值反复执行⑵~⑸步,直到模型收敛。
公式⑴的前项系数和后项系数可能溢出,使得为0,导致在第⑷步归一化时失败。为解决此问题,可采用对数变换策略。
对数域和实数域相比,对数值的表示范围大大增加,在实数域溢出的数值,在对数域可确保不会发生溢出。因此在利用B_W计算SCHMM参数时,可以把公式⑴~⑶转换为在对数域完成,这样就不会出现溢出的问题。实数域和对数域间的变换公式为
(4)
值得注意的是最后一个加法公式,其计算是相当耗时的。为减少计算代价,可以在一个表中预先存储所有可能的值,通过查表求出对数加的结果。
3 训练样本差异的问题
采用B_W算法进行连续语音训练,除要解决溢出问题外,还需解决由训练样本差异而导致的问题。通过分析高斯均值的计算过程,给出句子单元信息的定义,并研究句子单元信息对模型参数的影响及解决办法。
计算高斯均值,主要是求,结合实际物理意义进一步推导它的求解。首先计算第n帧通过状态的所有路径的输出权值,可采用如下公式:
(5)
式(5)为对于模型,第n帧通过状态的概率密度,由于这一概率密度是用J个高斯分布线性叠加而成的,为求对每一高斯分布的影响,应限定:
(6)
式(6)从第n帧经过状态的总概率中除去了n帧在状态的概率的影响,又加入了n帧在状态j高斯的影响。继续对该式做变换,得到
(7)
由(7)式可看到,第n帧在状态j高斯产生的概率密度分为3个部分:第1部分是模型对训练样本帧的整体输出概率密度,第2部分是处于状态的概率,第3部分是所求高斯函数占整个状态概率密度输出的概率。将第1部分定义为帧在j高斯的句子单元信息。依此类推,可以得到帧在状态的句子单元信息及样本Y的句子单元信息。样本Y的句子单元信息实际上就是模型对样本Y产生的概率密度。
表1是采用不同训练样本得到的“师”字模型参数。例如:短句“老师”和长句“上海的工人师傅克服困难”中“师”的发音相近,但由于长句的句子单元信息远远小于短句的句子单元信息,两句中极相似的语音帧却计算出了相差很远的权值。使得B_W算法无法得到正确的语音单位参数。
为有效地解决这个问题,一是采取选
您可能关注的文档
- 圆锥曲线的统定义和曲线方程同步导学练.doc
- 圆锥曲线的定义方程与性质.doc
- 土力学习题集答案doc.doc
- 土力学实验__相对密度.doc
- 土力学实验相对密度.doc
- 土壤中分解尿素的细菌的分离与计数规范训练(人教版选修).doc
- 土的含水率烘干法的试验步骤[].doc
- 土的渗透性和土中渗流.doc
- 在ACAD中怎样输入角度?.doc
- 圣中心小学复习计划.doc
- 中国国家标准 GB/T 15445.3-2025粒度分析结果的表述 第3部分:试验曲线的参考模型拟合.pdf
- 《GB/T 15445.3-2025粒度分析结果的表述 第3部分:试验曲线的参考模型拟合》.pdf
- 中国国家标准 GB/Z 41305.3-2025环境条件 电子设备振动和冲击 第3部分:利用轨道车辆运输.pdf
- 《GB/Z 41305.3-2025环境条件 电子设备振动和冲击 第3部分:利用轨道车辆运输》.pdf
- GB/Z 41305.3-2025环境条件 电子设备振动和冲击 第3部分:利用轨道车辆运输.pdf
- 中国国家标准 GB/T 46713.4-2025轨道交通 机车车辆 辅助供电系统蓄电池 第4部分:镍氢蓄电池.pdf
- 《GB/T 46713.4-2025轨道交通 机车车辆 辅助供电系统蓄电池 第4部分:镍氢蓄电池》.pdf
- GB/T 46713.4-2025轨道交通 机车车辆 辅助供电系统蓄电池 第4部分:镍氢蓄电池.pdf
- 中国国家标准 GB/Z 106-2025质量管理体系 组织变革管理 过程.pdf
- GB/Z 106-2025质量管理体系 组织变革管理 过程.pdf
原创力文档


文档评论(0)