svmを用いた統計的日本語係り受け解析.ppt

下载文档 降价啦

5
0
约5.39千字
约 26页
2017-03-11 发布于天津
举报
版权申诉
保障服务

svmを用いた統計的日本語係り受け解析.ppt

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

svmを用いた統計的日本語係り受け解析

Support Vector Machine による日本語係り受け解析奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座工藤拓松本裕治係り受け解析日本語の統語解析の基本技術の１つ二文節間の係りやすさを数値化した行列を作成し，文全体を最適化する係り受け関係を導出人手による手法から、解析済みコーパスから統計的に求める手法へ統計的係り受け解析従来手法の問題点 1 慎重な素性選択が必要多くの素性を使用すると過学習してしまう最適な素性集合の選択は試行錯誤や人手に頼っている従来手法の問題点 2 Support Vector Machine（1） V.Vapnik 95 入力素性数に依存しない汎化能力を持ち過学習しにくい計算量をほとんど変えることなく，素性どうしの組み合わせ（共起，依存関係）を含めた学習が可能 SVM 2 線形２値（正例，負例）分類器，Euclid空間上の平面で分離 SVM 3 SVM 4 Kernel関数 1 Kernel関数 2 Kernel関数 3 SVM（まとめ）入力素性数に依存しない汎化能力を持ち過学習しにくいマージン最大化計算量をほとんど変えることなく素性どうしの組み合わせを含めた学習が可能 Kernel関数 d個までの素性の組み合わせを考慮しながらその中で汎化能力を最大にする戦略 Smoothingの効果が期待できる SVMによる係り受け解析（1）正例，負例の与え方 SVMによる係り受け解析（2）係り受け確率静的素性と動的素性静的素性 2文節の主辞の語彙，品詞，2文節間距離など文節まとめあげの段階で決定される実験環境，設定（1）京都大学テキストコーパスVersion2.0の一部学習データ 1月1日－8日 7958文テストデータ 1月9日 1246文内元98と同じ学習データ，テストデータ Kernel関数は，Polynomial関数，次元数 d 3 Beam幅 k 5 評価方法係り受け正解率文末から2番目の評価含める A デフォルト，含めない（B）文正解率実験環境，設定（2）実験結果（1）（d 3，k 5）実験結果（2）（d 3，k 5）動的素性の効果（d 3，k 5） Kernel関数と解析精度ビーム幅と解析精度関連研究との比較内元98との比較最大エントロピー法に基づくモデル 87.2%の精度（本手法は89.1%）素性の組み合わせ（共起，依存関係）の重要性を指摘しているが，組み合わせは，人手により発見的に選択，有効な組み合わせを網羅できない本手法はKernel関数の変更のみ，網羅性，一貫性という意味で優位今後の課題明らかに係らない制約を（人手により）導入他の計算コストの少ないモデルとの融合誤り駆動型による素性選択まとめ 7958文という非常に少量のデータにもかかわらず，89.1％の高い精度を示す SVMの持つ，高次元の入力に対して過学習しにくいという性質を裏付ける結果係り受け解析は各素性の組み合わせ（共起，依存関係）が重要，SVMはKern el関数を使うことで効率性，網羅性，一貫性で優位Ｘiは、ｎ次元の素性ベクトルで、それぞに対し、せいれい、ふれいのラベルがふられています。 SVMはこの空間を、線形ーーーで、Wx＋ｂ＝０というEucilid空間上の平面で事例を分離します。分離する前に、事例を、せいれいふれい、そのたの３つの領域に分割します。すべてのせいれいが、－－－の領域にはいるように、またすべてのふれいが、－－－－の領域にはいるように分割します。この２つをまとめると、このようになります。このどれにもぞくさない領域がその他（マージン領域）となります式ではつかみにくいので、２次元平面じょうで考えてみましょう。このようにせいれいと不例があり、ーーーの領域にすべてのせいれいが、ーーーの領域にすべての不例が配置されるように分割します。この太線が分離平面となります。このような、領域の分割方法ってのは、たくさんあって、たとえばこういうのとかこういうのとか、無数に存在します。このなかでどれが精度よく分離できるのでしょうか？直感的には、このようにあるデータにひっぱられることなく、できるだけ真ん中をとおるような直線できれば精度よく分離できるのではないかと考えられます。このようにあるデータのみにひっぱられている状態は、まさしくかがくしゅうの状態にあります。できるだけ真ん中を定量的にはどういことかというと、マージンｄが最大になるような識別平面をつくることになります。実際に、ｄを計算すると。。。のようになり、。。となりますつ