利用统计方法和中文训练数据处理台语文词性标记(ppt 18页).pptVIP

  • 1
  • 0
  • 约1.9千字
  • 约 18页
  • 2016-02-07 发布于湖北
  • 举报

利用统计方法和中文训练数据处理台语文词性标记(ppt 18页).ppt

利用统计方法和中文训练数据处理台语文词性标记(ppt 18页).ppt

利用統計方法及中文訓練資料處理台語文詞性標記 Modeling Taiwanese POS tagging with statistical methods and Mandarin training data 楊允言 戴嘉宏 劉杰岳 陳克健 高成炎 2008.9.5 報告大綱 研究架構 研究目的 研究方法 結果與分析 未來方向 1. 研究架構 台語文語料庫 詞頻/MI 統計 詞性標記 兩種書寫型式互轉 (漢字羅馬字) 語法結構樹 2. 研究目的 台語文 tagging 問題1:詞類集 中文詞類集 問題2:缺trainging data 中文的training data 2. 研究目的-2 Input:漢羅/羅馬字 段落對齊文本 Lu?n tha?k pe?h-o?e-ji? khah-ia?n tha?k Tiong-kok ji?, chiu?-si? ko?e tha?k, koh m?-sa?i le?ng-go?a ko?e-seh … 論讀白話字較贏讀中國字,就是會讀,koh m? 使另外解說 … 1885 葉牧師 白話字的利益 2. 研究目的-3 Output:Tagging結果 論[Lu?n] (VC) 讀[tha?k ] (VC) 白話字[pe?h-o?e-ji? ] (Na) 較贏[khah-ia?n ] (VJ) 讀[tha?k ] (VC) 中國[Tiong-kok] (Nc) 字[ji?] (Na) , (COMMACATEGORY) 就是[chiu?-si? ] (Cbb) 會[ko?e] (D) 讀[tha?k] (VC) , (COMMACATEGORY) koh[koh] (D) m?使[m?-sa?i ] (D) 另外[le?ng-go?a ] (Da) 解說[ko?e-seh] (VC) 3. 研究方法 3. 研究方法-2 利用台華辭典找出華語對譯詞(一對多) 有的找不到 HMM挑最適當的華語詞 3. 研究方法-3 MEMM分類器挑詞性 10個features 語詞:wi, wi-1, wi-2 wi-1 , wi+1 , wi+1 wi+2 詞性:ti-1, ti-2 ti-1 構詞:m1, m2 , mn 4.結果與分析 挑選7篇文章的第一段 文類:小說3 / 散文3 / 劇本1 時期:清2 / 日2 / 戰後3 837音節 / 564詞 48個詞性標記錯誤 正確率 91.49% 4.結果與分析-2 我[góa]{我}我(Nh) 將[chiong]{將}將(D) 草帽仔[chháu-bo?-á]{@草帽仔}草帽仔(Na) 掛[kòa]{帶;掛;戴}帶(VC) ti? [ti?]{在}在(P) 壁頂[piah-téng ]{牆壁上}牆壁上(Nc) , 行李[hêng-lí]{行李}行李(Na) khêng[khêng]{收拾;盤點}收拾(VC) khêng[khêng]{收拾;盤點}收拾(VC) leh[leh]{咧}咧(T) , 4.結果與分析-3 4.結果與分析-4 4.結果與分析-5 4.結果與分析-5 5.未來方向 建立training data 中文和台文的差異 台語詞類集 敬請指教 * * 91.53% 5/59 岬角上的新娘 小說 1990 90.32% 9/93 母親的眼淚 小說 1924 88.31% 9/77 安樂街 小說 1890 93.10% 4/58 威尼斯的生意人 劇本 1950 85.71% 7/49 老人的價值 散文 1990 93.28% 8/119 品行的遺傳 散文 1919 94.50% 6/109 白話字的利益 散文 1885 正確率 錯誤/ 語詞數 篇名 文類 年 62.50% 30 總計 8.33% 4 傳播錯誤 8.33% 4 人名 16.67% 8 未知詞 4.17% 2 沒有正確的中文詞可選 27.08% 13 選錯中文詞 比例 次數 錯誤原因 89.96% 23 229 小說 93.10% 4 58 劇本 92.42% 21 277 散文 正確率 標記錯誤 語詞數 文類 89.96% 23 229 小說 93.10% 4 58 劇本 92.42% 21 277 散文 正確率 標記錯誤 語詞數 文類 本资料来源 更多资料请访问精品资料网() *

文档评论(0)

1亿VIP精品文档

相关文档