- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
录音资料中的语者切割与分群Speaker Segmentation and Clustering
錄音資料中的語者切割與分群
Speaker Segmentation and Clustering for the Recorded Speech
蘇峻慶 、王小川
Chun-Ching Su and Hsiao-Chuan Wang
國立清華大學電機工程 學系
Department of Electrical Engineering, National Tsing Hua University
Email: g923990@oz.nthu.edu.tw hcwang@ee.nthu.edu.tw
.
摘要
本論文主要在探討錄音資料中語者切割與語者分群的問題,在語者切割方面 ,採用三個步
驟 ,第一步是利用貝氏資訊準則約略找出語者轉換點 大概的位置,第二步利用交叉偵測法作精確
化 ,第三步再確認是否為轉換點 ,實驗上顯示此方法 擁有運算量少及高準確率的優點。在語者分
群方面 ,群集之語者模型採用高斯混合模型 ,音段與每 一個群集模型作最 大概似法估測,找出最
靠近之群集 ,然後再利用一個門檻值判斷是要合併或是 分離出新的群 集。實驗結果顯示音段群中
包含語者數愈多 ,其整體分群效能愈低。
關鍵詞 :語者切割 、語者分群 、語者轉換點偵測 、群集模型
一、緒論
語言是人類溝通及傳達意念最自然的方法 ,語音訊號不只包含了說話者所要表達的意思 ,更
是隱含了說話者的個人特徵 ,因此在一段語音信號中 ,我們不僅要能夠聽出其中所要表達的意
思 ,更要知道這一段話究意是誰所講的 。
近年來從有線或無線網路上以語音擷取資訊的應用增加 ,身份確認或說話人辯識變得更為重
要 ,愈來愈 多人投入自動語者辨識的研究領域。在多人說話的環境下 ,變成需要先對語音做分段 ,
然後再辨認各個音段是誰在說話 因此, 就需事先作切割與分群 。舉例來說,在一個重要會議場合
的錄音 ,其內容包含若干人的談話 ,若想將這些語者的語音訊號分開 ,利用人工方法是既費時又
不經濟 ,因此有必要發展 出一套正確率高,速度又快的切割與分群方法 。
過去已有許多語者切割的方法被提出 [1][2] ,而這些被提出的方法大致可分類為以解碼為基
礎 之切割法(Decoder-Guided Segmentation) 、以模型為基礎之切割法(Model-based Segmentation) 、
以及以距離為基礎 之切割法(Metric-Based Segmentation) 。以上三種方法都有其優缺點,像 以解碼
為基礎之切割法,只能粗略地分類出語音 、音樂 、靜音等 ,並無法用來偵測出語者轉換點的位置。
以模型為基礎之切割法,需要事先搜集相關語料建立相對應的模型 ,這並不符合實際 。以距離為
基礎之切割法 ,則 需設定門檻值(Threshold Value) 來決定語者轉換點的位置 ,因此缺少穩定性
(Stability)和強健性(Robustness) 。
語者 分群是一個活躍多年的研究領域 ,大致上在作語者分群時有幾個基本的問題[3] :
1. 聚集(agglomeration) :對一群音段作語者分群時 ,其形成群 集的 方式有兩種,一種是凝聚 ,
另一種是 分裂。
2. 停止準則 (stopping criteria) :在作語者分群時 ,通常是不曉得音段群裡包含多少個語者 ,因此
需設立一個停止準則 ,當群 集數達到此一停止準則 ,即停止再分新群 。
3. 距離量測 (distance measures) :利用一個距離量測的方法 ,用以決定所偵測的音段是屬於哪一
群 。
本文在語者切割方面,採用三個步驟,第一步是利用貝氏資訊準則約略找出語者轉換點 大概
的位置 ,第二步利用交叉偵測法作精確化 ,第三步再確認是否為轉換點 ,實驗上顯示此方法 擁有
運算量少及高準確率的優點 。在語者分群方面 ,群集之語者模型採用高斯混合模型 ,音段與每個
群集模型作最大概似法估測 ,找出最靠近之群集,然後再利用一門檻值判斷是要合併或是分離出
新的群集 。
本文內容 安排如下 :第二
您可能关注的文档
- 建设工程费用计算规则-宁波建设工程造价.DOC
- 建设工程监理合同》(示范文本.PPT
- 建设工程造价咨询合同-青岛二中.PDF
- 建设项目基本情况(表一)-安岳县.DOC
- 建设项目境响告表-南京高新区.PDF
- 建设项目审计一般方法和要点-黑龙江明点会计师事务所有限公司.PPT
- 建设项目环境影响报告表-东风日产.PDF
- 建设项目环境影响报告表-云内动力.PDF
- 建设项目环境影响报告表-北京食品科学研究院.PDF
- 建设项目环境影响报告表-娄葑街道-苏州工业园区.PDF
- 2024年江西省高考政治试卷真题(含答案逐题解析).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)物理试卷(含答案详解).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)地理试卷(含答案详解).pdf
- 2024年内蒙通辽市中考化学试卷(含答案逐题解析).docx
- 2024年四川省攀枝花市中考化学试卷真题(含答案详解).docx
- (一模)长春市2025届高三质量监测(一)化学试卷(含答案).pdf
- 2024年安徽省高考政治试卷(含答案逐题解析).pdf
- (一模)长春市2025届高三质量监测(一)生物试卷(含答案).pdf
- 2024年湖南省高考政治试卷真题(含答案逐题解析).docx
- 2024年安徽省高考政治试卷(含答案逐题解析).docx
文档评论(0)