langinfo1 东京大学情报学课程第一章.pdfVIP

  • 0
  • 0
  • 约1.49万字
  • 约 30页
  • 2018-04-30 发布于河北
  • 举报
langinfo1 东京大学情报学课程第一章.pdf

自然言語処理入門 「ここではきものをぬぐこと」 東京大学 情報基盤センター (情報理工学系研究科 数理情報学専攻、 学際情報学府 兼担) 中川裕志 nakagawa@dl.itc.u-tokyo.ac.jp http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/ 参考文献 岩波講座 言語の科学 全11巻 形態素解析は第3巻、構文解析は第8巻、談話、対話は第7巻、文法と 意味は第4巻、音声は第2巻、情報処理は第9巻 東大出版会 言語と計算 談話、対話は第3巻、統計的言語処理は第4巻、情報検索は第5巻 学会誌、国際会議論文集など 言語処理学会誌「自然言語処理」(中川は編集長をしています。) 人工知能学会誌 情報処理学会 論文誌 Computational Linguistics (ACL の journal) Proceedings of ACL Proceedings of COLING ACM SIGIR ここではきものをぬぐこと 「ここで はきもの を 脱ぐこと」か 「ここでは、着物 を脱ぐこと」か 「にわにはにわがある」 「庭には庭がある」か 「庭に埴輪がある」か 単語の切れ目を見つける形態素解析 形態素とは、文字より大きく、しかしそれ以上分 割できない言語単位 なぜ形態素解析か 単語が認識できないと、文の意味を組み 立てられない。 わざわざ仮名で書くから難しいのでは、 最初から「ここで履物を脱ぐこと」なら簡 単? ワープロの日本語入力は仮名漢字変換 音声認識結果は音の列仮名の列 漢字やカタカナ交じりの文字列では ない。 日本語と英語 英語の場合、最初から単語は空白で区切られて いる。(ただし、音声認識の場合は日本語と同じ 問題) 屈折型言語 apples apple studied study 屈折した表現から原形そして品詞を求める。 日本語は単語の切れ目が表面的には分からな い。 膠着型言語 単語に分割することが必要。そし て品詞も求める。 日本語の形態素解析 日本語形態素解析で用いられるヒューリスティックな方法 最長一致法 先頭から辞書において一致する最長の単語を当てはめる。 全国都道府県議会議長席 全国 都道府県議 会議 長 席 分割数最小法 辞書を調べて、すべての可能分割を求め、その中で最小分割 数のものを選ぶ。 全国都道府県議会議長席 全国 都道府県 議会 議長 席 字種切り法 字種の変化点を単語の境界とみなす。 カラフルな電子メールカラフルな電子メール 文法情報に基づく形態素解析の枠組み にわにはにわがある (1)辞書引きの早さ 辞書: (2)辞書と入力文をつき合 にわ=名詞:庭、二羽 わせるが曖昧さ解消 はにわ=名詞:埴輪 にわ (名詞:庭 or 二羽)、 に=助詞 に (助詞)、はにわ(名詞:埴輪)、 は=助詞 が(助詞) が=助詞

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档