- 1、本文档共48页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自然言語処理2007
日本語における字種 区切り記号(句読点、特殊記号) 漢字、片仮名、アルファベット(英文字) 数字 平仮名 * 形態素解析結果の第一次近似解を得るヒューリスティック(heuristic) 平仮名から他の文字種への変わり目 区切り記号の前後 非平仮名列から数字列への変わり目 数字列から非平仮名列への変わり目 以後、さらに精度を高める。何をすればいいのか? 考えてみよう。 * 前記ヒューリスティック適用例 文字種類の変わり目を単語の切れ目とする考え方。切り出した後、微修正が必要。 文字種類の/変わり/目を/単語の/切れ/目とする/考え/方/。/切り/出した/後/、/微修正が/必要/。/ 文字種類 / の / 変 / わり / 目 / を / 単語 /の / 切 / れ / 目 / とする / 考 / え / 方 / 。 / 切 / り / 出 / した / 後 / 、 / 微修正 / が / 必要 / 。 * 問題:文字種法の長所?短所 長所は、... 短所は、... * 問題:文字種法の改良案を考えよ。 (例に基づいて考えること) * 問題:文字種法の適用分野はあるか? もしあるとすれば何? * 最長一致法 処理対象文字列の先頭から始まる単語のうち、文字列長が最大のものを優先的に単語候補とする方法。 * 例 アルプスのやまは美しい アルプスの少女は美しい 単語辞書: アルプス 少女 やま のやま 美しい は の * 問題:必要な単語辞書を作成せよ。 ユク河ノナガレハ、絶エズシテ、シカモモトノ水ニアラズ。 単語辞書: 河 水 ユク ノ ナガレ 絶エズシテ シカモ モトノ ニアラズ * (出典:『方丈記 徒然草 正法眼蔵随聞記 歎異抄』 日本古典文学全集 昭和46年 小学館) 問題:最長一致法の長所?短所 長所 短所 * 文節数最少法 文節数が最も少なくなる切り方を解とする方法。 * 例:くるまでまつ 車で 待つ (2) 車で 松 (2) 来るまで 待つ (2) 来るまで 松 (2) 繰るまで 待つ (2) 繰るまで 松 (2) 狂まで 待つ (2) 狂まで 松 (2) 来る 間で 待つ (3) 来る 間で 松 (3) etc. * 接続表を利用する方法 * 遷移確率を用いる方法 n-gram * 各種ツール Chasen (WinCha) Kobako-J XMLEDITOR.NET GoTagger など(この他にもいくつかあります。 調べてみなさい。) * レポート課題1 “形態素”の言語学的定義を調べよ。 Winchaに関し以下のことを行え. インストールする. 次の例文を形態解析する. 形態素解析結果について,問題点があれば指摘する. * 提出方法 書式: A4レポート用紙 表紙を付けること(日付,氏名,学籍番号) 提出日: 平成25年10月19日(月)授業時間中 提出場所: 教室 * 例文 (授業の時に提示する.) * Copyright? 2015 School of Computer Science, Tokyo University of Technology 自然言語処理2015 第2回目 東京工科大学 コンピュータサイエンス学部 亀田弘之 Natural Language Processing 2015 Tokyo University of Technology School of Computer Science Prof. Hiroyuki Kameda 前回の宿題(重要) 教科書の第1章を読んでくる。 自然言語処理, 天野他,オーム社(2007). 1頁~12頁(ただし,練習問題は除く) * まずは、復習から * Let’s remember what we studied last week. 自然言語処理とは(復習) 自然言語処理= ...が ...を ...する * 自然言語処理とは(復習) 自然言語処理= 機械が自然言語を処理する * (注)本講義では、このように限定した範囲を扱う。 自然言語処理とは(復習) 自然言語処理= 機械が日本語や英語を理解する * 自然言語処理とは(復習) 自然言語処理= 機械が日本語や英語を理解する * どうやって? How? 自然言語処理の概要 形態素解析 (morphological analysis) 統語解析(構文解析, syntactic analysis) 意味解析 (semantic analysis) 談話解析 (discourse analysis) 状況解析 (situation analysis) etc. * 今日の学習
文档评论(0)