基于矢量量化算法语音转换关键技术研究.docVIP

下载本文档

4
0
约2.47千字
约 6页
2018-10-30 发布于福建
举报
版权申诉

基于矢量量化算法语音转换关键技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于矢量量化算法语音转换关键技术研究

基于矢量量化算法语音转换关键技术研究　　【摘要】基于矢量量化的码本映射方法是语音转换的常用算法，其优势是转换算法实现快捷、效率高。在语音转换过程中，矢量码本映射的关键参数选择决定了转换算法的运行速度和目标语音的实现效果。本文研究矢量量化码本映射方法的关键参数的选择问题，研究了矢量量化中码书大小及LPC系数个数的选择方法，并通过仿真结果验明参数选择的有效性。　　【关键词】语音转换矢量量化码本映射参数选择　　1 引言　　语音转换属语音信号处理新兴研究方向。语音转换在提取源说话人和目标说话人的语音特征的基础上，通过语音转换技术使目标说话人的语音酷似源说话人语音。语音转换在电影配音、保密通信、文语转换系统应用乃至医学等方面都具有广泛的应用。　　语音转换常用算法有矢量量化算法（VQ）[1-3]、线性多变量回归算法（LMR）、动态频率调整算法（DFW）[4]，统计映射法[5]，人工神经网络（ANN）[6]，以及基于高斯混合模型（GMM）的语音转换算法。其中，矢量码本映射方法（VQ）是语音转换常用的一种方法，该算法对源说话人和目标说话人的特征参数进行划分，分别产生源码本和目标码本，采用动态时间规整（DTW）技术对齐源说话人和目标说话人的码本，并得到矢量码本的映射矩阵，利用码本映射矩阵实现语音转换。　　本文研究基于矢量量化算法的语音转换技术的关键参数的选择方法，在综合考虑转换效果及转换效率的基础上研究算法参数的选择方法，并通过ABX及MOS测试方法对语音转换结果进行评测分析。仿真实验结果表明了参数选择的有效性及正确性。　　2 基于矢量量化的语音转换算法　　2.1 语音信号特征参数的提取方法　　语音信号在短时间范围内可以认为是稳态信号，通常对语音信号的处理是先经过交叠分帧处理后，再对短时语音信号进行分析，获取源说话人及目标说话人的语音特征。设语音信号的时间序列为x（n），加窗分帧处理后得到的语音信号为xi（m），其中i表示第i帧信号，设每帧信号长度为N，则0≤m≤N-1。　　正常语音都含有有话帧和无话帧，语音特征提取只针对有话帧，本文采用谱熵法实现语音端点检测，分离语音信号中的有话帧和无话帧。对第i帧语音信号做快速傅里叶变换，并求出其频率分量的能量谱，设为Ei（k），定义归一化谱概率密度函数，如式（1）所示。　　2.2 矢量码本映射及动态时间规整[7]方法　　基于VQ的语音转换技术将源语音的LPC系数和目标语音的LPC系数进行矢量量化，然后利用动态时间规整技术将特征向量对齐，寻找码本映射矩阵，完成源语音到目标语音的特征参数转换。　　本文采用LBG算法[8]进行码书提取。LBG算法是一种递推算法，从一个事先选定的初始码本开始迭代。首先，把训练序列按照码本中的元素根据最邻近准则分组，然后，对每一分组找质心，得到新的码本并作为初始码本，接着，再进行分组，重复上述过程，直到描述系统性能的总失真度满足要求或者不再有明显的改进为止。　　为防止拖音或呼吸音造成单词的端点检测不准，识别率的降低，在语音转换时，要对语音信号进行时间规整，将时间规整和距离测度计算结合起来。假设源语音特征矢量有I 帧矢量，而目标特征有J帧矢量，且I≠J，则需要寻找一个时间规整函数，其中、，该时间规整函数将源语音特征矢量的时间轴非线性地映射到目标特征的时间轴上。第帧测试矢量和第帧模板矢量之间的距离测度用表示，这里，采用矢量欧式距离即2范数形式计算得到，距离测度如式（6）所示。　　2.3 语音合成方法　　对于测试的源语音信号，提取其基音信息和LPC特征参数，利用相应的基音转换方法和特征参数映射矩阵获得目标语音的基音参数及LPC特征参数，并通过语音合成方法生成转换后的语音信号。　　语音合成过程利用白噪声在无话段通过对应的线性预测得到的滤波器合成清音帧，在有话段利用连续脉冲串通过时变滤波器合成人的浊音帧，并采用采用线性比例重叠相加法，把分帧时产生的重叠部分用一个线性比例加权后再相加，实现语音信号的平滑操作。　　3 矢量量化语音转换算法关键参数的选择　　3.1 参数选择的实验方法　　矢量量化关键参数的选择包括码书参数的选择和LPC系数个数的选择。本文通过实验分析得到合理的参数选择方法。一般的口语汉句的平均汉字数是12个。本文利用SAPI5 TTSAPP语音合成软件生成频率为8KHz的2男2女的语音，挑选兼具元辅音成分的汉语词汇组成平均长度为12个汉字的汉句。　　3.2 码书参数及LPC系数个数的选择　　输入100个具有代表性的汉句进行仿真实验，通过比较不同码书及LPC系数个数值下平均D值的大小以及运算时间的长短得到码书参数的选择方法。表1所示为不同码书下的100个语音转换结果的平均D值的比较，表2