自然言语处理2012.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自然言語処理2012 東京工科大学 コンピュータサイエンス学部 亀田弘之 今日の内容 tf?idf法の考え方(復習) 意味について 言語処理システム(デモと説明) 未知語獲得システム(デモと説明) 文法獲得システム(デモと説明) これからの進むべき道 補講の予告(一緒に試験を勉強します) tf?idf法の考え方(復習) 問題意識 キーワード検索における文書のランキング 各文書(document)を特徴づける単語(キーワード)はどれだろうか? 問題設定 文書 Doc1 言語  コンピュータ  問題 Doc2 コンピュータ  問題  情報 Doc3 言語  問題  情報 Doc4 問題  情報 * NLP2011 Tokyo University of Technology 下記の各文書におけるキーワードはそれぞれどれ? 問) まずは自分で考えてみよう! 考察 行と列を入れ替える キーワード 文書 言語 Doc1 Doc3 コンピュータ Doc1 Doc2 問題 Doc1 Doc2 Doc3 Doc4 情報 Doc2 Doc3 Doc4 問) この表から何がわかる? もう少し情報を付け加えてみよう TF Doc1 Doc2 Doc3 Doc4 言語 2 0 1 0 コンピュータ 1 1 0 0 問題 2 2 3 1 情報 0 1 2 1 (注)出現頻度の情報を追加。 考察) 上記の各文書におけるキーワードは結局それぞれどれ? ポイント 多くの文章に万遍なく現れる単語は、その文章を特徴づけるものになっていないのでは? その文書だけに集中して現れる単語は、その文書を特徴づける単語になってるであろう。 その文章において出現頻度の高い単語は、その文書を特徴づける単語と考えていいのではないか? 知見) 単語の重要度=TF×IDF      TF(term frequency): 当該単語の出現個数      DF(document frequency): 当該単語が含まれる文書の総数      IDF(inverse document frequency) TF-IDF法(1) TF Doc1 Doc2 Doc3 Doc4 IDF 言語 2 0 1 0 コンピュータ 1 1 0 0 問題 2 2 3 1 情報 0 1 2 1 * NLP2011 Tokyo University of Technology tf?idf法 (2) TF?IDF Doc1 Doc2 Doc3 Doc4 言語 コンピュータ 問題 情報 * NLP2011 Tokyo University of Technology 問題)TF-IDF法の長所と短所は? 発展問題) 通常の教科書によれば、tf-idf法は以下の式により計算される。なぜか? 2.意味について 言語学における意味論 哲学(言語哲学?分析哲学) など 認識論(ロック、ヒューム、カント) 課題) “意味”という単語の意味を、辞書で調べてみてください。 言語について(補足) ラング(langue) ランガージュ(langage) パロール(parole) 各種デモ 今まで学んだことで、こんなことができるんだ、ということを知ってください。

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档