miracle a multimodal internet music search engine 多模式网际网 .ppt

下载文档 降价啦

1
0
约1.92千字
约 13页
2017-08-16 发布于天津
举报
版权申诉
保障服务

miracle a multimodal internet music search engine 多模式网际网 .ppt

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

者辨智星自我介台大系博士美加州大柏克分校指教授研究重研究系加州大柏克分校用工程美麻州公司公司完成至今副教授清大系大何者辨者辨的用者辨的方法追系速度辨率何者辨者辨以音的特性行者的身份或者以音辨者的身份者以音者是否所宣之身份可使用固定句或不固定句行辨者的可以是固定集合或是不固定集合者辨的原理由於每人的道口腔鼻腔等生理不同加上如速度音高奏等的不同因此我可以藉由音的分析抓出者特性而辨者的身份者辨的用者隔混多人的音料中隔某一特定者的音料生物以音或某人的身份自大量的音料行比追可能的罪犯行者辨的流程前置理收集

MIRACLE 語者辨識（Speaker Recognition）張智星 Jang@.tw .tw/~jang 自我介紹學歷 1980-84: 台大電機系 1987-92:電機電腦（EECS）博士、美國加州大學柏克萊分校（指導教授：Prof. Lotfi Zadeh, Father of Fuzzy Logic）研究重點 Speech/Melody Recognition, Neural Networks, Fuzzy Logic 經歷 1992-93：研究員，電機電腦系、加州大學柏克萊分校 1993-95：應用工程師，美國麻州 MathWorks 公司（MATLAB總公司），完成 Fuzzy Logic Toolbox 1995-至今：副教授，清華大學資訊系大綱何謂語者辨識語者辨識的應用語者辨識的方法「電話聲紋追蹤系統」速度與辨識率結論何謂語者辨識語者辨識 (Speaker Recognition): 以語音的特性來進行語者的身份識別或確認：語者識別（Speaker Identification）：以語音來辨識語者的身份語者確認（Speaker Verification）：以語音來確認語者是否為所宣稱之身份類別可使用固定語句（Text-dependent）或不固定語句（Text-independent）來進行辨識語者識別的範圍可以是固定集合（Fixed set）或是不固定集合（Open set）語者辨識的原理由於每個人的聲帶、聲道、口腔、鼻腔等生理結構不同，加上講話習慣（如速度、音高、節奏等）的不同，因此我們可以藉由語音的分析，來抓出語者特性，並進而辨識語者的身份。語者辨識的應用語者隔離（Speaker segregation）：從混雜多人的語音資料中，隔離某一特定語者的語音資料生物認證（Biometric identification）：以語音識別或確認某個人的身份電話自動監聽：對大量的電話語音資料進行聲紋比對，並追蹤可能的罪犯行蹤。語者辨識的流程前置處理收集目標語者的語音資料抽取語音特徵向量（Mel-frequency cepstral coefficient，簡稱 MFCC）建立數學模型（高斯混合模型或Gaussian mixture model，簡稱 GMM）即時處理錄取待辨識語音抽取語音特徵向量代入先前數學模型，得到辨識結果電話聲紋追蹤系統：功能功能：本系統可對攔截到的大量語音對話進行比對，並根據 GMM 所算出來的機率來排序，能將正確目標語音推送到排名的前 10%。換句話說，如果我們攔截到 1000 通電話對話，經由本系統比對後，可以剔除 900 通，監聽人員只要監聽剩下較可能的 100 通對話，就可以獲取到同樣的效果，達到事半功倍的目標。電話聲紋追蹤系統：辨識率與辨識率概估的相關數據目標語者：10 人目標語音總長度：1 分鐘測試語音：長度 1 分鐘，共 100 通錄音規格：取樣頻率 8KHz，解析度 8-bit 電話聲紋追蹤系統：運算速度運算速度及資料處理量平台：Pentium 2.4 GHz CPU，512 MB DDR RAM 前置處理：對於 1 分鐘的目標語音進行 Feature Extraction，約需 2.8秒，再進行 8-Gaussian GMM 建模，約需 2.1 秒，因此共需要 4.9秒。即時處理：對於 1 通測試語音（長度 1 分鐘）進行 Feature Extraction，約需 2.8秒，再對 10 個 8-Gaussian GMM 機率計算（假設目標語者有 10 人），約需 0.7 秒，因此共需3.5秒。根據上述的資料，假設目標語者有 10 人，如果我們使用 1 台個人電腦不斷運算，就可以同時持續處理 20 通對話，若使用 5 台電腦進行平行處理，就可以同時持續處理 100 通對話。電話聲紋追蹤系統：展示改進方向計算的瓶頸是在於 feature extraction，只要這部分的速度加快，整體的資料處理量也會跟著增加。這方面還有很大的改進空間，因為我們可以使用 fixed-point 來取代 floating-point 運算，或是採取其他簡化的計算方式，在不影響辨識率太大的情況下，來增加資料處理量。結論由於目前個人電腦的速度突飛猛進，因此以前需要以超級電腦來進行的聲紋比對工作，目前使用一般個人電腦就可以勝任，所以我們就可以以平行處理的方式，來對大量的電話語音資料進行聲紋比對，並追蹤特定語者的行蹤。 * *