基于共振峰和高斯混合模型的声音转换系统.docVIP

基于共振峰和高斯混合模型的声音转换系统.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于共振峰和高斯混合模型的声音转换系统 马建春1,刘文举2 12 中科院自动化所模式识别国家重点实验室,100080 E-mail:{jcma,lwj}@ 摘要 现有的声音转换系统大多用源-滤波器语音模型,采用LPC,LPC倒谱系数,线性频谱频率LSF为特征。本文提出用共振峰作为声音转换系统的特征,共振峰是决定说话人特征的主要因素, 并且在声音产生理论中具有明确的物理意义,所以引入共振峰特征相比其它特征有其优越性。转换函数的训练采用高斯混合模型(GMM),并采用一系列的改进措施(静\清\浊音判定,动态时间弯折的后处理)来精确地建立这个映射规则。实验表明转换语音音质和目标的倾向性获得有效的改善。 关键词:声音转换; 共振峰; 高斯混合模型 1. 引言 声音转换是一种改变源说话人的声音,使其听起来具有目标说话人特性的技术。它在改变说话人的特征的同时,保持话语的内容,而且说话的环境信息保持不变[1]。 声音转换有着广泛的用途[10],首先在文语转换系统中,把它用在合成系统的后端,使合成声音具有个性化的特点;用在合成系统的前端,使语料库的收集成为一个简单易行的事情。在娱乐领域,国外流行的语音即时聊天工具(voice changer software),能实时产生各种性别年龄,附加各种音效的声音。声音转换也能作为学习外语的学习工具。给那些由于各种原因导致失去语言功能的人提供帮助。在情报部门更有很多潜在的应用。现实的需求使声音转换越来越引起研究者的兴趣,使之成为目前语音处理领域的一个热点。 如何抓住决定说话人的主要特征,以及如何精确转换是声音转换技术的两个关键问题。 从说话人识别的角度看,人们可通过不同层次的特征来识别一个说话人。最高层次特征可以从语言学角度来进行分析,包括说话的方言,口音,说话时字词的选取。对这些语言学的特征进行分析与建模难度很大,在声音转换技术的研究范围之外;从声学层次可提取说话人相关的音段特征和超音段特征,这些特征是可以准确定量的。在超音段特征方面,平均F0和语音速度对说话人识别的贡献最大,可以用 TD-PSOLA算法[7]去调整基频和语速从均值上匹配目标说话人的这些参数。 音段特征主要是一些短时声学特征,它与人的发音器官紧密相关,包括声道特性和声源特性的特征。从参数提取的角度看,声道可以近似的认为是一个线性时变滤波器。全极点的源-滤波器模型较好的表示了短时语音频谱。现有的基于此模型的转换算法常用的特征多采用为LPC及其演变形式[5][6][7][9],如LPC倒谱系数、线性频谱频率(LSF)等。但从变换的角度看,提取那些具有明确物理理意义的发音器官参数进而进行转换,应该更能反映说话人的个性特征。共振峰特征(频率和带宽)就是很好的参数,它不仅是决定说话人特征的主要因素, 并且在声音产生理论中具有明确的物理意义[2]。 在声源方面,研究者采用由多项式,LF模型[3][8]来对声源进行建模。在这些转换系统中多采用共振峰分析合成模型[3][8],虽然有其灵活性,可以调整各种参数使合成语音更好的反映说话人的特性。但是存在共振峰合成器合成音质不高的缺点。本文采用以源-滤波器模型为分析合成系统,用LPC残差作为声源,把共振峰作为说话人特征进行建模转换。 就映射规则而言,目前基于统计的GMM模型[4][5]比矢量量化VQ[6]、线性多变量回归LMR[7]、人工神经网络[8][9]等显示出更好的效能和鲁棒性。所以本文采用GMM来训练映射规则,并通过一系列的改进措施(静\清\浊音判定,动态时间弯折DTW的后处理)来精确地建立这个映射规则 下面的第二部分将介绍共振峰特征的提取,训练GMM映射函数和转换的过程在第三部分给出,最后是一些实验结果的讨论及对转换语音的评价。 2. 共振峰特征的提取 这里应用简单的线性预测求根法来估计共振峰特征(频率和带宽)。步骤如图1所示。先用LPC分析计算出线性预测系数, 然后由这些系数构建多项式并求根,这些根就是声道频率特性的极点,由这些极点即可计算出共振峰的频率和带宽。全极点源-滤波器模型的声道传递函数可由J个实数极点,I个复数极点对,和增益G表示: 1 H(z)=G∏* ?1 j=1(1?Ajz) I J 比,联合概率方法理论上能使回归问题的高斯混合成分得到更合理的配置,但在进行EM算法运算时的计算量要大很多。本文采用联合概率方法。 源声音用n个特征向量X=[x1,x2,...xn]来表1 ?j2πF/F?1(1) j2πF/F?1 i=1(1?Aeiisz)(1?Aeiisz)这里的 Ai为极点半径,Fi为极点的频率,Fs表示采 样频率。第i个复数极点对可以用具有相应频率和带宽的谐振器来表示。 z(?2π(BWi/Fs)±j2πFi/Fs i=e (2) 其中BWi=(?logAi)(Fs/2π) (

文档评论(0)

9988871 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档