录音资料中的语者切割与分群Speaker Segmentation and Clustering .PDF

录音资料中的语者切割与分群Speaker Segmentation and Clustering .PDF

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
录音资料中的语者切割与分群Speaker Segmentation and Clustering

錄音資料中的語者切割與分群 Speaker Segmentation and Clustering for the Recorded Speech 蘇峻慶 、王小川 Chun-Ching Su and Hsiao-Chuan Wang 國立清華大學電機工程 學系 Department of Electrical Engineering, National Tsing Hua University Email: g923990@oz.nthu.edu.tw hcwang@ee.nthu.edu.tw . 摘要 本論文主要在探討錄音資料中語者切割與語者分群的問題,在語者切割方面 ,採用三個步 驟 ,第一步是利用貝氏資訊準則約略找出語者轉換點 大概的位置,第二步利用交叉偵測法作精確 化 ,第三步再確認是否為轉換點 ,實驗上顯示此方法 擁有運算量少及高準確率的優點。在語者分 群方面 ,群集之語者模型採用高斯混合模型 ,音段與每 一個群集模型作最 大概似法估測,找出最 靠近之群集 ,然後再利用一個門檻值判斷是要合併或是 分離出新的群 集。實驗結果顯示音段群中 包含語者數愈多 ,其整體分群效能愈低。 關鍵詞 :語者切割 、語者分群 、語者轉換點偵測 、群集模型 一、緒論 語言是人類溝通及傳達意念最自然的方法 ,語音訊號不只包含了說話者所要表達的意思 ,更 是隱含了說話者的個人特徵 ,因此在一段語音信號中 ,我們不僅要能夠聽出其中所要表達的意 思 ,更要知道這一段話究意是誰所講的 。 近年來從有線或無線網路上以語音擷取資訊的應用增加 ,身份確認或說話人辯識變得更為重 要 ,愈來愈 多人投入自動語者辨識的研究領域。在多人說話的環境下 ,變成需要先對語音做分段 , 然後再辨認各個音段是誰在說話 因此, 就需事先作切割與分群 。舉例來說,在一個重要會議場合 的錄音 ,其內容包含若干人的談話 ,若想將這些語者的語音訊號分開 ,利用人工方法是既費時又 不經濟 ,因此有必要發展 出一套正確率高,速度又快的切割與分群方法 。 過去已有許多語者切割的方法被提出 [1][2] ,而這些被提出的方法大致可分類為以解碼為基 礎 之切割法(Decoder-Guided Segmentation) 、以模型為基礎之切割法(Model-based Segmentation) 、 以及以距離為基礎 之切割法(Metric-Based Segmentation) 。以上三種方法都有其優缺點,像 以解碼 為基礎之切割法,只能粗略地分類出語音 、音樂 、靜音等 ,並無法用來偵測出語者轉換點的位置。 以模型為基礎之切割法,需要事先搜集相關語料建立相對應的模型 ,這並不符合實際 。以距離為 基礎之切割法 ,則 需設定門檻值(Threshold Value) 來決定語者轉換點的位置 ,因此缺少穩定性 (Stability)和強健性(Robustness) 。 語者 分群是一個活躍多年的研究領域 ,大致上在作語者分群時有幾個基本的問題[3] : 1. 聚集(agglomeration) :對一群音段作語者分群時 ,其形成群 集的 方式有兩種,一種是凝聚 , 另一種是 分裂。 2. 停止準則 (stopping criteria) :在作語者分群時 ,通常是不曉得音段群裡包含多少個語者 ,因此 需設立一個停止準則 ,當群 集數達到此一停止準則 ,即停止再分新群 。 3. 距離量測 (distance measures) :利用一個距離量測的方法 ,用以決定所偵測的音段是屬於哪一 群 。 本文在語者切割方面,採用三個步驟,第一步是利用貝氏資訊準則約略找出語者轉換點 大概 的位置 ,第二步利用交叉偵測法作精確化 ,第三步再確認是否為轉換點 ,實驗上顯示此方法 擁有 運算量少及高準確率的優點 。在語者分群方面 ,群集之語者模型採用高斯混合模型 ,音段與每個 群集模型作最大概似法估測 ,找出最靠近之群集,然後再利用一門檻值判斷是要合併或是分離出 新的群集 。 本文內容 安排如下 :第二

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档