以线性多变量回归来对映分段后音框之语音转换方法a voice - 古鸿炎.pdfVIP

下载本文档

7
0
约2.26万字
约 12页
2017-09-02 发布于天津
举报

以线性多变量回归来对映分段后音框之语音转换方法a voice - 古鸿炎.pdf

以线性多变量回归来对映分段后音框之语音转换方法a voice - 古鸿炎

以線性多變量迴歸來對映分段後音框之語音轉換方法 A Voice Conversion Method Mapping Segmented Frames with Linear Multivariate Regression 古鴻炎張家維王讚緯 Hung-Yan Gu Jia-Wei Chang Zan-Wei Wang 國立臺灣科技大學資訊工程系 Department of Computer Science and Information Engineering National Taiwan University of Science and Technology e-mail: {guhy, m9815064, @.tw 摘要基於 GMM 對映之語音轉換方法常遇到的一個問題是，轉換出的頻譜包絡會發生過於平滑 (over smoothing) 的現象，因此本論文嘗試以線性多變量迴歸 (linear multivariate regression, LMR)來建構另一種頻譜對映的方法，希望能夠改進頻譜過平滑的問題。首先，我們推導了 LMR 對映矩陣的解析求解公式，然後我們錄製平行語料，採用離散倒頻譜係數作為頻譜特徵，分割語音信號成聲、韻母之音段，再使用 LMR 對映方法來建造出一個語音轉換系統。應用此系統，我們就可進行內部、外部之平均轉換誤差的量測，並且和傳統 GMM 對映法所量測出的誤差距離作比較，量測的結果顯示，本論文研究的 LMR_F 對映法，不論是在內部或外部之測試情況，都可以獲得比傳統 GMM 對映法較小的平均轉換誤差。此外，我們也進行了主觀的語音品質聽測之實驗，聽測實驗的結果顯示，我們研究的 LMR_F 對映法，其轉換出的語音品值，能夠比傳統 GMM 對映法的稍好一些。關鍵詞：語音轉換，線性多變量迴歸，高斯混合模型，離散倒頻譜係數一、緒論語音轉換(voice conversion)研究的目標是，要把一個來源語者(source speaker)的語音轉換成另一個目標語者(target speaker)的語音。這種語音轉換的處理，可應用於銜接語音合成處理，以獲得多樣性的合成語音音色，此外亦可應用於作戲劇配音的處理，以讓一個配音員可以為多個角色配音。過去在語音轉換領域，先前研究者提出的轉換方法包括了: 頻譜特徵之向量量化(VQ)對映(mapping)[1] ，共振峰(formant)頻率對映[2, 3] ，基於高斯混合模型(Gaussian mixture model, GMM)之對映[4, 5] ，基於類神經網路(artificial neural network, ANN)之對映[6] ，基於隱藏式馬可夫模型(hidden Markov model, HMM)之對映[7, 8]等。最近幾年有不少研究者採取基於 GMM 對映之方向來作語音轉換，並且嘗試去解決原始 GMM 對映方式[4]所碰到的問題，例如轉換出的頻譜包絡(spectral envelope)會出現過於平滑(over smoothing)的現象，一個例子如圖一所示，虛線曲線代表目標語者一個音框的頻譜包絡，實線曲線則代表由來源語者音框轉換出的頻譜包絡，明顯可看出虛線曲線的 F2 、F4 、F6 等共振峰(formant)的頻寬變寬了很多，也就是山鋒至山谷的深度減少了，這種過於平滑的頻譜包絡，將使得據以合成出的語音信號，發生語音品質衰退的情況，也就是語音聽起來，會讓人覺得悶悶的、不夠清晰。圖一、過於平滑之轉換出的頻譜包絡為了避免發生頻譜過於平滑的情況，而造成音質的衰退，在此論文裡我們遂決定採取以最小均方(least mean square, LMS)誤差為準則，去研究線性多變量迴歸(linear multivariate regression, LMR)方式的頻譜對映方法，希望用以提升轉換出語音的音質。線性多變量迴歸對映(簡

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

以线性多变量回归来对映分段后音框之语音转换方法a voice - 古鸿炎.pdfVIP