录音资料中的语者切割与分群Speaker Segmentation and Clustering .PDF

下载文档 降价啦

6
0
约2.06万字
约 15页
2017-08-05 发布于天津
举报
版权申诉
保障服务

录音资料中的语者切割与分群Speaker Segmentation and Clustering .PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

录音资料中的语者切割与分群Speaker Segmentation and Clustering

錄音資料中的語者切割與分群 Speaker Segmentation and Clustering for the Recorded Speech 蘇峻慶、王小川 Chun-Ching Su and Hsiao-Chuan Wang 國立清華大學電機工程學系 Department of Electrical Engineering, National Tsing Hua University Email: g923990@oz.nthu.edu.tw hcwang@ee.nthu.edu.tw . 摘要本論文主要在探討錄音資料中語者切割與語者分群的問題，在語者切割方面，採用三個步驟，第一步是利用貝氏資訊準則約略找出語者轉換點大概的位置，第二步利用交叉偵測法作精確化，第三步再確認是否為轉換點，實驗上顯示此方法擁有運算量少及高準確率的優點。在語者分群方面，群集之語者模型採用高斯混合模型，音段與每一個群集模型作最大概似法估測，找出最靠近之群集，然後再利用一個門檻值判斷是要合併或是分離出新的群集。實驗結果顯示音段群中包含語者數愈多，其整體分群效能愈低。關鍵詞：語者切割、語者分群、語者轉換點偵測、群集模型一、緒論語言是人類溝通及傳達意念最自然的方法，語音訊號不只包含了說話者所要表達的意思，更是隱含了說話者的個人特徵，因此在一段語音信號中，我們不僅要能夠聽出其中所要表達的意思，更要知道這一段話究意是誰所講的。近年來從有線或無線網路上以語音擷取資訊的應用增加，身份確認或說話人辯識變得更為重要，愈來愈多人投入自動語者辨識的研究領域。在多人說話的環境下，變成需要先對語音做分段，然後再辨認各個音段是誰在說話因此，就需事先作切割與分群。舉例來說，在一個重要會議場合的錄音，其內容包含若干人的談話，若想將這些語者的語音訊號分開，利用人工方法是既費時又不經濟，因此有必要發展出一套正確率高，速度又快的切割與分群方法。過去已有許多語者切割的方法被提出 [1][2] ，而這些被提出的方法大致可分類為以解碼為基礎之切割法(Decoder-Guided Segmentation) 、以模型為基礎之切割法(Model-based Segmentation) 、以及以距離為基礎之切割法(Metric-Based Segmentation) 。以上三種方法都有其優缺點，像以解碼為基礎之切割法，只能粗略地分類出語音、音樂、靜音等，並無法用來偵測出語者轉換點的位置。以模型為基礎之切割法，需要事先搜集相關語料建立相對應的模型，這並不符合實際。以距離為基礎之切割法，則需設定門檻值(Threshold Value) 來決定語者轉換點的位置，因此缺少穩定性 (Stability)和強健性(Robustness) 。語者分群是一個活躍多年的研究領域，大致上在作語者分群時有幾個基本的問題[3] ： 1. 聚集(agglomeration) ：對一群音段作語者分群時，其形成群集的方式有兩種，一種是凝聚，另一種是分裂。 2. 停止準則 (stopping criteria) ：在作語者分群時，通常是不曉得音段群裡包含多少個語者，因此需設立一個停止準則，當群集數達到此一停止準則，即停止再分新群。 3. 距離量測 (distance measures) ：利用一個距離量測的方法，用以決定所偵測的音段是屬於哪一群。本文在語者切割方面，採用三個步驟，第一步是利用貝氏資訊準則約略找出語者轉換點大概的位置，第二步利用交叉偵測法作精確化，第三步再確認是否為轉換點，實驗上顯示此方法擁有運算量少及高準確率的優點。在語者分群方面，群集之語者模型採用高斯混合模型，音段與每個群集模型作最大概似法估測，找出最靠近之群集，然後再利用一門檻值判斷是要合併或是分離出新的群集。本文內容安排如下：第二