- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MIRACLE 語者辨識(Speaker Recognition) 張智星 Jang@.tw .tw/~jang 自我介紹 學歷 1980-84: 台大電機系 1987-92:電機電腦(EECS)博士、美國加州大學柏克萊分校(指導教授:Prof. Lotfi Zadeh, Father of Fuzzy Logic) 研究重點 Speech/Melody Recognition, Neural Networks, Fuzzy Logic 經歷 1992-93:研究員,電機電腦系、加州大學柏克萊分校 1993-95:應用工程師,美國麻州 MathWorks 公司(MATLAB總公司),完成 Fuzzy Logic Toolbox 1995-至今:副教授,清華大學資訊系 大綱 何謂語者辨識 語者辨識的應用 語者辨識的方法 「電話聲紋追蹤系統」速度與辨識率 結論 何謂語者辨識 語者辨識 (Speaker Recognition): 以語音的特性來進行語者的身份識別或確認: 語者識別(Speaker Identification):以語音來辨識語者的身份 語者確認(Speaker Verification):以語音來確認語者是否為所宣稱之身份 類別 可使用固定語句(Text-dependent)或不固定語句(Text-independent)來進行辨識 語者識別的範圍可以是固定集合(Fixed set)或是不固定集合(Open set) 語者辨識的原理 由於每個人的聲帶、聲道、口腔、鼻腔等生理結構不同,加上講話習慣(如速度、音高、節奏等)的不同,因此我們可以藉由語音的分析,來抓出語者特性,並進而辨識語者的身份。 語者辨識的應用 語者隔離(Speaker segregation):從混雜多人的語音資料中,隔離某一特定語者的語音資料 生物認證(Biometric identification):以語音識別或確認某個人的身份 電話自動監聽:對大量的電話語音資料進行聲紋比對,並追蹤可能的罪犯行蹤。 語者辨識的流程 前置處理 收集目標語者的語音資料 抽取語音特徵向量(Mel-frequency cepstral coefficient,簡稱 MFCC) 建立數學模型(高斯混合模型或Gaussian mixture model,簡稱 GMM) 即時處理 錄取待辨識語音 抽取語音特徵向量 代入先前數學模型,得到辨識結果 電話聲紋追蹤系統:功能 功能: 本系統可對攔截到的大量語音對話進行比對,並根據 GMM 所算出來的機率來排序,能將正確目標語音推送到排名的前 10%。換句話說,如果我們攔截到 1000 通電話對話,經由本系統比對後,可以剔除 900 通,監聽人員只要監聽剩下較可能的 100 通對話,就可以獲取到同樣的效果,達到事半功倍的目標。 電話聲紋追蹤系統:辨識率 與辨識率概估的相關數據 目標語者:10 人 目標語音總長度:1 分鐘 測試語音:長度 1 分鐘,共 100 通 錄音規格:取樣頻率 8KHz,解析度 8-bit 電話聲紋追蹤系統:運算速度 運算速度及資料處理量 平台:Pentium 2.4 GHz CPU,512 MB DDR RAM 前置處理:對於 1 分鐘的目標語音進行 Feature Extraction,約需 2.8秒,再進行 8-Gaussian GMM 建模,約需 2.1 秒,因此共需要 4.9秒。 即時處理:對於 1 通測試語音(長度 1 分鐘)進行 Feature Extraction,約需 2.8秒,再對 10 個 8-Gaussian GMM 機率計算(假設目標語者有 10 人),約需 0.7 秒,因此共需3.5秒。 根據上述的資料,假設目標語者有 10 人,如果我們使用 1 台個人電腦不斷運算,就可以同時持續處理 20 通對話,若使用 5 台電腦進行平行處理,就可以同時持續處理 100 通對話。 電話聲紋追蹤系統:展示 改進方向 計算的瓶頸是在於 feature extraction,只要這部分的速度加快,整體的資料處理量也會跟著增加。這方面還有很大的改進空間,因為我們可以使用 fixed-point 來取代 floating-point 運算,或是採取其他簡化的計算方式,在不影響辨識率太大的情況下,來增加資料處理量。 結論 由於目前個人電腦的速度突飛猛進,因此以前需要以超級電腦來進行的聲紋比對工作,目前使用一般個人電腦就可以勝任,所以我們就可以以平行處理的方式,來對大量的電話語音資料進行聲紋比對,並追蹤特定語者的行蹤。 * *
您可能关注的文档
- 第一章细胞的分子组成(复习).ppt
- 电子货币与支付系统.ppt
- 电子结算系统.ppt
- 电子文件的管理.ppt
- 电子支付专题.ppt
- 东大山自然保护站高等植物调查.ppt
- 冬小麦抗寒性直接鉴定法.ppt
- 动物组织中DNA的提取与鉴定.ppt
- 对“算用结合”的几点思考.ppt
- 多糖构效关系研究进展 陈学.ppt
- 2023-2024学年湖南省湘西州高一下期末数学试卷附答案解析.docx
- 2023-2024学年四川省凉山州高一下期末数学试卷附答案解析.docx
- 2023-2024学年山东省日照市高一下期末数学试卷附答案解析.docx
- 2023-2024学年河北省张家口市高一下期末数学试卷附答案解析.docx
- 2023-2024学年山东省枣庄市高一下期末数学试卷附答案解析.docx
- 2023-2024学年四川省成都市高一下期末数学试卷附答案解析.docx
- 2023-2024学年四川省成都七中高一下期末数学试卷附答案解析.docx
- 2023-2024学年陕西省咸阳市高一下期末数学试卷附答案解析.docx
- 2023-2024学年山东省泰安市高一下期末数学试卷附答案解析.docx
- 黑龙江省哈尔滨市九中2024-2025年4月考试高二语文试卷.docx
文档评论(0)