- 1、本文档共74页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算语言学花概论0
計算語言學概論 Ch4 詞法分析 楊允言 4.1 概論 音節?語詞?語句 語詞是ùi無意義ê聲音kàu有意義ê語音ê關鍵過渡 語言學對詞ê定義:會tàng獨立運用,有意義ê siong細ê語法單位 4.1 概論-2 漢字ê例 簡體字ê「后」對應繁體字ê「後面、皇后」,若是ti字ê基礎轉換有困難,ti詞ê基礎做轉換to有可能 文字校對系統,「羅馬子(字)」(拼音ê輸入法)、「于(干)涉」(字形ê輸入法),利用詞ê基礎來檢查,chiah檢查會出來 語詞檢索「人為」,若是語料庫無經過斷詞處理,有可能會chhe出「以人為本…」、「人為按怎beh活leh」等無適合ê例句 4.1 概論-3 詞法分析第一個任務 ùi話句內底ka詞chhe出來(tokenization) 若有需要,koh分析組成這個詞ê語素成分(lemmatization / morphological analysis) 詞法分析第二個任務 做Part of Speech iah是 Word Sense Tagging 這句話ê三個翻譯(n)lóng翻譯(v)了têng-tan去 4.1 概論-4 詞法分析ê困難點 理論上 詞ê 定義? 詞ê 意思beh按怎確認? 實作上 Beh按怎真緊ka詞chhe出來? 斷詞beh按怎做disambiguity? 詞類beh按怎做disambiguity? 4.2 詞ê判別 英文ê詞 (Tokenization) White Space / 標點 隔開 有ê詞用標點隔開 eg “I’ll” “can’t” 有ê縮寫詞有句點 eg “U.S” 有ê詞有非字母 eg “ATT” “Micro$oft” 數字 eg “123,456.789” “23.5%” “2005/12/21” 會sái用Regular expression表示,用Finite State Machine處理 4.2 詞ê判別-2 英文ê詞形分析 (Lemmatization) Prefix + Word Stem(詞根) + Suffix + Inflection(型態變化) eg possible ? impossible ? impossiblyhappy ? happinesslady ? ladiescheck ? checkedmake ? makerstrong ? strongest… 4.2 詞ê判別-3 台文ê tokenization:做Word Segmentation 漢羅台文,需要先切做一個一個ê音節(全漢字to無需要) 查辭典,用siong大比對 (Maximal Matching)eg : 台語文|計算|語言學|是|三|學分|ê |課 問題:ambiguityeg : 看台語故事 (X) 看台|語|故事 (O) 看|台語|故事 (Backward Maximal Match thang解決) 4.2 詞ê判別-4 台文ê例eg : 真正常用 …(O) 真正|常用 …(O) 真|正常|用 … 華文ê例eg : 結合成分子時 (FMM/BMM)(X)結合|成分|子時 (O)結合|成|分子|時 4.2 詞ê判別-5 Ambiguity分兩種 交chhap型AmbiguityABC ? AB | C / A | BCeg 野球場 ( 野球|場 / 野|球場 ) 組合型AmbiguityAB ? AB / A|Beg 個人 (我|個人…/三|個|人…) 組合型Ambiguity無法度用siong大比對解決 4.2 詞ê判別-6 利用規則來解決組合型Ambiguity if ( IsNumber ( LeftWord (“個人”) ) ) then “個|人” else “個人” 利用MM + Feedback來解決交chhap型Ambiguity 學歷史智識 ? (FMM) 學歷|史(辭典無)|智識? 學|歷史|智識 4.2 詞ê判別-7 Siong大機率分詞(統計方法,針對交chhap型Ambiguity) eg : 0看1台2語3故4事5 FMM 看台|語|故事 0 -- 2 -- 3 -- 5 BMM 看|台語|故事 0 -- 1 -- 3 – 5 查詞頻資料 看台 9 0.0002% 語 2,787 0.0688% 看 14,566 0.3595% 台語 5,549 0.1370% P(看台) × P(語) P(看) × P(台語) ?選BMM ê結果 4.2 詞ê判別-8 演算法 將無kang分詞結果排序w1, w2, …, wn ùi辭典查出P(wi),並且紀錄倒pêng相óa ê詞(LAW) P’(wi) = P’(wi-1) ×P(wi
文档评论(0)