PPT-ChaSen.org.pptVIP

  • 9
  • 0
  • 约 36页
  • 2017-05-12 发布于天津
  • 举报
PPT-ChaSen.org.ppt

Conditional Random Fields を用いた 日本語形態素解析 NAIST (4月よりNTT CS研 PD) 工藤 拓 CREST 東京工業大学 山本 薫 NAIST 松本 裕治 背景 Conditional Random Fields [Lafferty 01] Markov Random Fields の特殊系 各種系列ラベル付与問題に適用され高精度を示す 品詞タグ付け[Lafferty01], テキストチャンキング[Sha 03], 固有表現抽出[McCallum 03], HTML からのテーブル抽出[Pinto 03], 書誌情報の解析[Peng 04] 日本語形態素解析に適用 拙作の MeCab (形態素解析器)をもっと賢くしたい 日本語形態素解析に固有の Length bias に着目 いままで問題にされることはなかった 日本語形態素解析 (1/2) 単語に区切る 品詞 (+ 付加情報) を付与する 活用処理 (原形を出力) 日本語形態素解析 (2/2) 辞書 (単語 → 品詞の写像)の存在を前提 形態素ラティス 出力系列の全候補を表現 TRIEを用いることで O(n) (n:文長)

文档评论(0)

1亿VIP精品文档

相关文档