- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
素性の組み合わせを実現するpowersetkernelとその高速化-chasen.org
系列パターンマイニングを用いた有効な素性の組み合わせの発見 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 松本 裕治 背景 SVM をはじめとする Kernel Method のめざましい進展 自然言語処理も例外ではない テキストチャンキング 固有名詞抽出 構文解析 Kernel Method は万能なのか? Kernel Method の問題点 有効な素性の分析が困難 素性空間が陰に表現される 有効な素性(事例の部分構造)は我々の知らない一種の知識 (マイニング) 分類の計算量が大きい Kernel Method に基づくチャンカーや構文解析器は大規模テキストデータの解析に不向き ケーススタディ(日本語係り受け) SVM に基づく日本語係り受け解析システム「南瓜」 2000年 Perl + C++ プロトタイプ 2-3秒/文 2001年 春 C++ で再実装 0.4秒/文 2001年 夏 データ構造の工夫 0.3秒/文 新聞記事数年分を解析するのに 数週間 ちなみに.. 形態素解析 0.0001秒/文 SVMの分類アルゴリズムを改良しない限り、これ以上の高速化は無理 本発表の流れ Kernel Method Power Set Kernel Power Set Kernel の高速化手法 PSKB (ベースライン) PSKI (提案手法 1) PSKE (提案手法 2) 日本語係り受けタスクにおける実験 考察、今後の課題 本発表の流れ Kernel Method Power Set Kernel Power Set Kernel の高速化手法 PSKB (ベースライン) PSKI (提案手法 1) PSKE (提案手法 2) 日本語係り受けタスクにおける実験 考察、今後の課題 Kernel Method Kernel Method の問題点 本発表の流れ Kernel Method Power Set Kernel Power Set Kernel の高速化手法 PSKB (ベースライン) PSKI (提案手法 1) PSKE (提案手法 2) 日本語係り受けタスクにおける実験 考察、今後の課題 Power Set 集合のすべての部分集合の集まりをべき集合(Power Set)とよぶ 集合 X の Power Set を P(X)と記す (Special) Power Set Kernel 集合の内積を与える Kernel X, Z は集合 X の要素数を |X|と記す K(X, Z) = | P(X) ∩ P(Z) |=2 Power Set Kernel (PSK) PSK の周辺定理 X,Zを任意の集合, を正の整数とするとき, は PSK となる X,Zを任意の集合, を n階微分可能でかつ となる関数とするとき, はPSKとなる すべての PSK K(X,Z) は, |X∩Z|の多項式で表現できる Cr が事前に分かる場合, PSK を設計できる 多項式Kernel RBF Kernel 本発表の流れ Kernel Method Power Set Kernel Power Set Kernel の高速化手法 PSKB (ベースライン) PSKI (提案手法 1) PSKE (提案手法 2) 日本語係り受けタスクにおける実験 考察、今後の課題 Power Set Kernel の高速化 PSKB 通常の分類手法(ベースライン) PSKI (Inverted representation) 事例 の集合を転置した形で表現 PSKE (Expanded representation) 事例を Power Set の空間で分類 PSKB (ベースライン) PSKI (Inverted Representation) PSKE (Expanded Representation) (1/2) PSKE (Expanded Representation) (2/2) PSKEの実際 展開テーブル の作成 素性の d個の組み合わせを全展開するのは非常に困難 (係り受けの素性は 4万程度) [磯崎2002]は 2個の組み合わせだけに限定 |w|は, その部分集合の分類寄与度を与える. |w|の小さい部分集合は考えない(近似) データマイニングアルゴリズムの適用 展開テーブル の保持 そのままでは冗長なので TRIE を作成
您可能关注的文档
最近下载
- 子宫内膜息肉诊治中国专家共识(2022年版).ppt VIP
- GB_T 28627—2023《抹灰石膏》标准解读.pdf VIP
- 2024年清远市纪委市监委纪律审查管理中心招聘笔试真题.docx VIP
- 宗教知识讲座课件.pptx
- 辽宁金融职业学院2025年单独招生考试试卷真题及答案 .pdf VIP
- 小学体育与健康一年级上学期水平一全套优秀教案教案.doc VIP
- 乡村振兴新篇章-农业经济与农村可持续发展.pptx VIP
- 全面解读学习2023新修订版《中华人民共和国行政复议法》PPT课件.pptx VIP
- 生物化学与分子生物学:第06章生物氧化 -医学课件.ppt VIP
- 2025年《中华人民共和国反不正当竞争法》学习解读课件(新修订版).pptx VIP
文档评论(0)