AN VN词组 - 白话字台语文网站.PPT

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
AN VN词组 - 白话字台语文网站

附加詞類訊息e台語語詞搭配ti教學上e應用 ICTR 2006 – 2006-09-10 作者 楊允言 大漢技術學院資訊工程系 助理教授 劉杰岳 拋荒台文工作室負責人 陳鄭弘堯 台語文工作者 陳柏中 國立清華大學物理系助理教授 大綱 紹介 基礎背景 實驗步數 實驗結果 未來方向 紹介:問題 語詞搭配(collocation)是學習語詞按怎用真好ê工具 用互訊息(mutual information) kah相關度(correlation) 來統計 會產生bōe少無必要ê資料(noise) 紹介:解決方法 利用詞類ê訊息來篩選 自動ka無必要ê資料theh掉 提升自動台語語詞搭配ê品質 試驗動詞-名詞(V-N)詞組kap形容詞-名詞(A-N) 詞組 紹介:實驗結果 動詞-名詞(V-N)詞組ê結果比形容詞-名詞(A-N) 詞組khah好 查詢一個動詞正pêng ê名詞(V-N) iah是一個名詞倒pêng ê動詞(V-N),有學習參考ê價值 Beh進一步提升品質,iah-koh有chia?-chōe空課愛做 語料庫 語料庫to是khng語言材料ê倉庫 語料庫語言beh復興ê重要基礎 語料庫ê應用真chōe 台文ê語料庫一直kàu 21世紀chiah開始 語詞搭配(collocation) 語詞組合做伙ê方式 語料庫真重要ê應用 例 車單phah好a (O) 車單摃好a (X) 搭配錯誤:包括語法kah慣用語 語言學習真重要ê一部分 自動語詞搭配 根據語料庫,ka共同出現而且關係密切ê語詞chhē出來 有兩個公式thang用: 互訊息(mutual information, MI) 相關度(correlation,CR) 互訊息(MI) – 紹介 MI(AB) = - log(P(A) * P(B) / P(AB)) P(A)是語詞A ê機率,P(A) = Freq(A) / N P(B)是語詞B ê機率 P(AB)是詞組AB ê機率 語料愈大,統計ê結果愈有代表性 互訊息(MI) – 1 若AB tiā?-tiā? 成對出現 MI(AB) = - log(P(A) * P(B) / P(AB)) P(A)≒P(B) ≒P(AB), MI(AB) ≒ -log(P(AB)),P(AB) 1 是一個khah大ê正數 互訊息(MI) – 2 若A kah B無關係(獨立事件) MI(AB) = - log(P(A) * P(B) / P(AB)) P(AB)≒P(A)P(B) MI(AB) ≒ -log(1) ≒ 0 互訊息(MI) – 3 若語詞A出現致使B khah boe出現 MI(AB) = - log(P(A) * P(B) / P(AB)) P(AB)P(A)P(B), MI(AB) ≒ -log(x),x 1 MI(AB)是負數 相關度(CR) – 紹介 CR(AB) = n * (n11 × n22 - n12 × n21 )2 / (n1* × n2* × n*1 × n*2) B ~B Σ A n11 n12 n1* ~A n21 n22 n2* Σ n*1 n*2 n 自動語詞搭配 – 限制 phah字錯誤ê 情形 因為錯字ê詞頻真低,會致使MI kah CR ê分數變足k?an 對策:會sái設詞頻ê限制 限定相óa ê兩個語詞 無相óa :phah兩張車單 3個語詞:除了...以外,iah-koh ... Be-tang取代專家 對學習者kah專家有參考作用 自動語詞搭配 – 用詞類改進 詞類會sái提供真好ê線索 用詞類Ka結果分類整理,對學習kah分析有幫贊 實驗步數 – 紹介 建立資料庫 台語文語料 台文華文線頂辭典(簡稱台華辭典) (漢羅ê)台語文語料斷詞 建立台華辭典ê詞類 計算兩個相óa ê語詞ê MI kah CR 用詞類篩選 實驗步數a – 建立資料庫 台語文語料 來源:台語文界ê朋友,楊允言負責整理 全羅3,462,367個音節 漢羅5,568,057個音節 台文華文線頂辭典(簡稱台華辭典) 來源:主要貢獻者是鄭良偉,koh有台語文界朋友鬥補充詞條 6萬2千外個詞條 每一個詞條包括漢羅、全羅、華文對譯 實驗步數b - 語料斷詞 全羅ê語料 無需要斷詞 語詞數量:2,436,599個 漢羅ê語料需要 根據台華辭典斷詞 「倒頭

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档