结合韵律与声学讯息之强健性汉语语者验证系统.PDFVIP

下载本文档

1
0
约2.15万字
约 15页
2018-12-02 发布于天津
举报
版权申诉

结合韵律与声学讯息之强健性汉语语者验证系统.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

结合韵律与声学讯息之强健性汉语语者验证系统

結合韻律與聲學訊息之強健性漢語語者驗證系統張文杰 2 1 2 1 1 2 ，陳鼎允，陳子和，曾志仁、廖元甫，莊堯棠 1 國立台北科技大學電子工程學系 2 國立中央大學電機工程學系 Email: yfliao@.tw 摘要在本論文中，我們探討強健式漢語文字特定(text-dependent, TD)與文字不特定(text-independent, TI) 語者驗證系統，主要是針對漢語的聲調語言特性，提出潛在韻律分析 (latent prosody analysis, LPA) 及高斯混合模型(Gaussian mixture model, GMM)兩種方式，分別用來建置每位語者的韻律行為模型及能量與音高軌跡(pitch contour)的動態變化模型。實驗結果顯示在使用 ISCSLP-SRE語料之漢語文字特定與文字不特定語者驗證實驗情況下，使用韻律訊息 (prosodic information)來輔助傳統使用頻譜特徵(spectral features)之語者驗證系統，可有效提升系統效能。 1. 序論語者驗證在現今的語音處理中為重要的分支研究項目之一 [1] ，目前有相當多的研究不斷地持續發展中。尤其從 1996 年開始，NIST 機構每年都會藉由舉辦語者辨認評估(speaker recognition evaluation, SRE)來提供一個共同的測試平台 [2] ，以促進語者辨認技術演進及各種演算方法的實用性，更讓全世界最新穎的想法得以在競賽裡獲得驗證。相較於外國語言，漢語的語者辨認競賽還在起步階段，在 2006 年舉辦的中文口語語言處理國際會議(ISCSLP)中，首度建立了漢語語言的語者競賽機制 [3] ，讓此領域的研究人員能夠同時在擁有一樣的資源下，透過中文語言資源聯盟(Chinese Corpus Consortium, CCC) [4]所提供的資料庫，切磋漢語語者的辨認技術與研究。語者驗證技術在現實生活中可以有許多的應用，例如可以藉由電話連接到銀行或是信用卡等客服中心，並直接透過使用者的聲音來驗證身份以即時提供便利的私人服務。然而使用者若任意使用不同的電話話筒或通道，則會有電話話筒與通道環境不匹配問題，而導致傳統以頻譜特徵為主之語者驗證系統效能降低。為了改善電話話筒與通道不匹配問題，近年來有許多人利用韻律訊息來強化傳統以頻譜特徵為基礎之語者驗證系統 [5-8]的效能，韻律特徵 (prosodic feature)不僅含有語者訊息並已被認定是不易受到電話話筒與通道不匹配的影響，而且在西方語言的研究中亦有很多的文獻證實其效果。因此在本論文中我們將著重在討論如何利用韻律特徵來強化漢語語者驗證系統的效能，主要是考慮到漢語屬於一種聲調 (tonal)語言，其本質上依賴聲調的不同來區別出同音異字詞，故韻律特徵對漢語的影響應較西方語言強烈。一般來說頻譜特徵代表是較短程(short term)且低階層的聲學訊息，都是和發音器官相關的實體線索，其中被廣泛使用的梅爾頻率倒頻譜係數 (Mel-frequency cepstral coefficients, MFCCs)是可以擷取並傳達出發音腔道(vocal tract)的分佈；韻律特徵則通常作為聲門資訊 (glottic source)的特徵參數，不僅是較長程(long term)且高階的特徵並含有語者本身特殊的訊息，如音高軌跡及音調 (intonation) 等，因此兩者各是呈現語音訊號中不同的訊息。在韻律訊息改善不匹配問題的方法中，對於短程韻律方面通常會使用高斯混合模型來統計韻律訊息，能捕捉到如音高與能量的分佈、音高與能量的斜率以及音