chapter 18 多媒体辨识技术 - 淡江大学.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
chapter 18 多媒体辨识技术 - 淡江大学

CH18 多媒體辨識技術 * 文字辨識系統的基本架構 特徵擷取:區別字與字之間的差異並提高最終的辨識結果 文字特徵 統計式:描述字元圖形的像素密度、筆劃方向或筆段關係 結構式:描述字元圖形的幾何或拓樸結構 文字結構特徵範例 CH18 多媒體辨識技術 * 文字辨識系統的基本架構 文字辨識: 比較輸入文字影像與在資料庫裡文字樣本群的特徵值相似度 方法: 最小的距離 相關比對 變形樣板比對 類神經網路 模糊理論 模擬人腦的思考模式— 機器學習 Microsoft Office的手寫辨識功能 CH18 多媒體辨識技術 * 文字辨識的應用 (1) 開啟手寫辨識功能的電腦路徑設定 手寫辨識功能的範例 手寫文字的辨識較印刷文字辨識難,一般系統會加上筆畫順序以提高辨識率 文字辨識在智慧型手機上的應用 CH18 多媒體辨識技術 * 文字辨識的應用 (2) 行動版Google Goggles的使用範例 行動版Google Docs的使用範例 18-3 人臉與影像辨識 * CH18 多媒體辨識技術 人臉影像訊號的產生與接收: * 認識人臉影像訊號 輸入—人 影像訊號處理器---人臉辨識 影像訊號的接收器 電腦 人 電腦 人臉影像辨識基本原理 CH18 多媒體辨識技術 * 人臉影像辨識原理 系統輸入---影像訊號 系統輸出---人臉ID 人臉影像資料庫 影像訊號比對 最符合的比對結果 人臉影像 人臉ID Mary “Ken” Janet Leo Harry 人臉影像的品質會影響到辨識的正確率,而影像品質是由影像的解析度來決定。 高解析:表示影像可提供的細節就越多 CH18 多媒體辨識技術 * 人臉辨識的關鍵---影像解析度 低解析 高解析 CH18 多媒體辨識技術 * 人臉辨識系統的基本架構 CH18 多媒體辨識技術 * 人臉辨識系統的基本架構 人臉偵測方法:由膚色、眼睛、鼻子、嘴巴等人臉的特徵去偵測人臉位置。 人臉特徵:有一定的顏色,要判定位置並不困難;舉例來說 人類膚色在色彩空間上的分布上會聚集在某個特定區域 對人類的嘴巴區域而言,色彩空間上紅色的成分較多而藍色的成分較少; 對眼睛區域來說,眼睛是由較暗的眼球和較亮的眼白所組成。 輸入影像 膚色偵測 人臉位置 幾何正規化:將輸入影像旋轉或縮放 光線正規化:移除光線干擾的因素 CH18 多媒體辨識技術 * 人臉辨識系統的基本架構 CH18 多媒體辨識技術 * 人臉辨識系統的基本架構 常見的人臉辨識技術: 樣板比對 考慮臉部特徵的幾何關係,(如鼻子的寬高,嘴巴的位置,下巴的形狀,眼睛和嘴巴之間的距離等) 類神經網路 主成分分析 (主流方法) 社群網路上人臉辨識的應用 人臉辨識系統的應用 (1) 人臉辨識系統於臉書網站的使用範例 人臉辨識在智慧型手機上的應用 人臉辨識系統的應用 (2) 智慧型手機上的人臉辨識應用範例 (圖片取於Apple store) * * * * * CH18 多媒體辨識技術 CH18 多媒體辨識技術 CH18 多媒體辨識技術 CH18 多媒體辨識技術 CH18 多媒體辨識技術 CH18 多媒體辨識技術 CH18 多媒體辨識技術 CH18 多媒體辨識技術 CH18 多媒體辨識技術 CH18 多媒體辨識技術 CH18 多媒體辨識技術 CH18 多媒體辨識技術 認識多媒體的輸入方式 認識多媒體辨識原理 認識多媒體辨識系統的基本架構 認識辨識技術在多媒體系統上的應用 認識訊號辨識的軟體工具 18-1 語音辨識 CH18 多媒體辨識技術 * 語音訊號的產生與接收: * 認識語音訊號 輸入---語音訊號 語音訊號處理器---語音辨識 語音訊號接收器 人 電腦 CH18 多媒體辨識技術 語音辨識的基本原理 CH18 多媒體辨識技術 * 語音辨識原理 系統輸入---語音訊號 系統輸出---語意 淡 語音資料庫 淡 江 臺 語音訊號比對 最符合的比對結果 語音波形表示聲音的四個元素: 聲音高度:音高是由聲波每分鐘震動次數多少(頻率)來決定 聲音強度:即是音量也就是聲音的強弱程度。音的強或弱是由聲波震幅(聲音震動的幅度)大小來決定 聲音長度:音長指的是聲音的長短,它是由聲波震動持續的時間長短來決定(波長)。 音色:音色就是指聲音的特色和本質。人類夠透過音色來分辨,讓我們很容易地區別出不同人或樂器所發出來的聲音。 CH18 多媒體辨識技術 * 語音的四個元素 CH18 多媒體辨識技術 * 語音辨識系統的基本架構 CH18 多媒體辨識技術 * 語音辨識系統的基本架構 聲音是類比訊號(連續性) 透過數位化取樣的過程將輸入的連續性語音訊號變成不連續訊號以供電腦處理。 CH18 多媒體辨識技術 * 語音辨識系統的基本架構 當語音輸入時,整段訊號的

文档评论(0)

wangyueyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档