利用统计方法及中文训练资料处理台语文词性标记.pptVIP

  • 6
  • 0
  • 约 17页
  • 2016-12-07 发布于江苏
  • 举报

利用统计方法及中文训练资料处理台语文词性标记.ppt

利用统计方法及中文训练资料处理台语文词性标记

利用統計方法及中文訓練資料處理台語文詞性標記 Modeling Taiwanese POS tagging with statistical methods and Mandarin training data 楊允言 戴嘉宏 劉杰岳 陳克健 高成炎 2008.9.5 報告大綱 研究架構 研究目的 研究方法 結果與分析 未來方向 1. 研究架構 台語文語料庫 詞頻/MI 統計 詞性標記 兩種書寫型式互轉 (漢字羅馬字) 語法結構樹 2. 研究目的 台語文 tagging 問題1:詞類集 中文詞類集 問題2:缺trainging data 中文的training data 2. 研究目的-2 Input:漢羅/羅馬字 段落對齊文本 Lu?n tha?k pe?h-o?e-ji? khah-ia?n tha?k Tiong-kok ji?, chiu?-si? ko?e tha?k, koh m?-sa?i le?ng-go?a ko?e-seh … 論讀白話字較贏讀中國字,就是會讀,koh m? 使另外解說 … 1885 葉牧師 白話字的利益 2. 研究目的-3 Output:Tagging結果 論[Lu?n] (VC) 讀[tha?k ] (VC) 白話字[pe?h-o?e-ji? ] (Na) 較贏[khah-ia?n ] (VJ) 讀

文档评论(0)

1亿VIP精品文档

相关文档