svmを用いた統計的日本語係り受け解析.ppt

svmを用いた統計的日本語係り受け解析.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
svmを用いた統計的日本語係り受け解析

Support Vector Machine による日本語係り受け解析 奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座 工藤 拓 松本裕治 係り受け解析 日本語の統語解析の基本技術の1つ 二文節間の係りやすさを数値化した行列を作成し,文全体を最適化する係り受け関係を導出 人手による手法から、解析済みコーパスから統計的に求める手法へ 統計的係り受け解析 従来手法の問題点 1 慎重な素性選択が必要 多くの素性を使用すると過学習してしまう 最適な素性集合の選択は試行錯誤や人手に頼っている 従来手法の問題点 2 Support Vector Machine(1) V.Vapnik 95 入力素性数に依存しない汎化能力を持ち過学習しにくい 計算量をほとんど変えることなく,素性どうしの組み合わせ(共起,依存関係)を含めた学習が可能 SVM 2 線形2値(正例,負例)分類器,Euclid空間上の平面で分離 SVM 3 SVM 4 Kernel関数 1 Kernel関数 2 Kernel関数 3 SVM(まとめ) 入力素性数に依存しない汎化能力を持ち過学習しにくい マージン最大化 計算量をほとんど変えることなく素性どうしの組み合わせを含めた学習が可能 Kernel関数 d個までの素性の組み合わせを考慮しながらその中で汎化能力を最大にする戦略 Smoothingの効果が期待できる SVMによる係り受け解析(1) 正例,負例の与え方 SVMによる係り受け解析(2) 係り受け確率 静的素性と動的素性 静的素性 2文節の主辞の語彙,品詞,2文節間距離など 文節まとめあげの段階で決定される 実験環境,設定(1) 京都大学テキストコーパスVersion2.0の一部 学習データ 1月1日-8日 7958文 テストデータ 1月9日 1246文 内元98と同じ学習データ,テストデータ Kernel関数は,Polynomial関数,次元数 d 3 Beam幅 k 5 評価方法 係り受け正解率 文末から2番目の評価含める A デフォルト, 含めない(B) 文正解率 実験環境,設定(2) 実験結果(1)(d 3,k 5) 実験結果(2)(d 3,k 5) 動的素性の効果(d 3,k 5) Kernel関数と解析精度 ビーム幅と解析精度 関連研究との比較 内元98との比較 最大エントロピー法に基づくモデル 87.2%の精度 (本手法は89.1%) 素性の組み合わせ(共起,依存関係)の重要性を指摘しているが,組み合わせは,人手により発見的に 選択,有効な組み合わせを網羅できない 本手法はKernel関数の変更のみ, 網羅性, 一貫性という意味で優位 今後の課題 明らかに係らない制約を(人手により)導入 他の計算コストの少ないモデルとの融合 誤り駆動型による素性選択 まとめ 7958文という非常に少量のデータにもかかわらず,89.1%の高い精度を示す SVMの持つ,高次元の入力に対して過学習しにくいという性質を裏付ける結果 係り受け解析は各素性の組み合わせ(共起,依存関係)が重要,SVMはKern el関数を使うことで効率性,網羅性,一貫性で優位 Xiは、n次元の素性ベクトルで、それぞに対し、せいれい、ふれいのラベルがふられています。 SVMはこの空間を、線形ーーーで、Wx+b=0というEucilid空間上の平面で事例を分離します。 分離する前に、事例を、せいれいふれい、そのたの3つの領域に分割します。 すべてのせいれいが、---の領域にはいるように、また すべてのふれいが、----の領域にはいるように分割します。 この2つをまとめると、このようになります。 このどれにもぞくさない領域がその他(マージン領域)となります 式ではつかみにくいので、2次元平面じょうで考えてみましょう。 このようにせいれい と不例があり、ーーー の領域にすべてのせいれいが、 ーーーの領域にすべての不例が配置されるように分割します。 この太線が分離平面となります。 このような、領域の分割方法ってのは、たくさんあって、たとえばこういうのとか こういうのとか、無数に存在します。このなかでどれが精度よく分離できるのでしょうか? 直感的には、このようにあるデータにひっぱられることなく、できるだけ真ん中をとおるような 直線できれば精度よく分離できるのではないかと考えられます。このようにあるデータのみにひっぱられている 状態は、まさしくかがくしゅうの状態にあります。 できるだけ真ん中を定量的にはどういことかというと、マージンdが最大になるような識別平面をつくること になります。 実際に、dを計算すると。。。のようになり、。。となります つ

文档评论(0)

maritime5 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档