工学类东北大学工学部.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
更多资源 * 横軸~ 縦 * 横軸~ 縦軸~ * 東北大学工学部 橋本研究室 東北大学工学部 橋本研究室 2007/4/20 東北大学工学部 橋本研究室 A General Framework for Mining Concept-Drifting Data Streams with Skewed Distributions ~コンセプトドリフトが生じるクラス分布に偏りがあるデータストリームに対するデータマイニングの一般的な枠組み~ 出典:SIAM Conference on Data Mining 2007(SDM07) 著者:J.Gao, W.Fan,J.Han,P.S.Yu 発表者:橋本研究室4年 西村聖 所属:東北大学工学部 発表日:2007/4/20 2007/4/20 東北大学工学部 橋本研究室 * 目次 背景 既存手法の問題 予測誤差の原因 提案手法による誤差の削減 実験方法?結果 まとめ?考察 背景 分類:大量のデータを予め決められたグループ(クラス)に分  けること   例. 不正アクセスの検出   毎日大量のアクセス履歴があるが,そのうち不正アクセスはごく僅か           ↑                       ↑       データストリーム             クラス分布の偏り また,不正アクセスの手段も日々変化していく(コンセプトドリフト)   不正アクセスは見逃すと大変!  クラス分布の偏り,データストリームのコンセプトドリフトに 対応できるような手法が必要となる 2007/4/20 東北大学工学部 橋本研究室 * 2007/4/20 東北大学工学部 橋本研究室 * 基本的なオンライン型分類学習の流れ 学習用データ 学習アルゴリズム 分類モデル クラス1 クラス2 分類 分類したいデータ データが発生するたびにモデル構築 データの発生 2007/4/20 東北大学工学部 橋本研究室 * 既存の手法の問題点 データのクラス分布のバランスが取れていて,安定したデータストリームを仮定している コンセプトドリフトが生じるクラス分布の偏ったデータストリームを仮定                                       コンセプトドリフトを条件付確率の変化と捉えている.しかし実際に観測できるのは,結合確率であり                               結合確率の変化が条件付確率の変化によるものか,生起確率の変化によるものかが分からない コンセプトドリフトを結合確率の変化と捉えることにより, 詳細な分析をする x:事例 y:クラス 2007/4/20 東北大学工学部 橋本研究室 * コンセプトドリフトと予測誤差の関係 予測誤差 コンセプトドリフトの発生?結合確率の変化       表1.コンセプトドリフトの種類 予測誤差はコンセプトドリフト発生の指標とはならず,   コンセプトドリフトに対応するためには既存の手法同様 最新のデータによるモデルの再構築が必要 変化なし 予測誤差 変化なし 変化する 変化する 変化する は分類モデルが予測するクラス 2007/4/20 東北大学工学部 橋本研究室 * 分類結果に含まれる誤差の種類 予測誤差=ベイズ誤差(真の分類誤り率)+バイアス+分散 バイアス:分類に用いるモデルへの制約 分散:異なる学習データを用いた場合の分類モデルの予測の差 バイアスが大きすぎる?学習精度があがらない バイアスが小さすぎる?学習結果が安定しない バイアスは適切に設定すべき 提案手法は学習アルゴリズムにC4.5を用いているので,  枝刈りによりバイアスを適度に保てる 提案手法の流れ サンプリング アンサンブル学習 学習アルゴリズム 分類モデル クラス1 クラス2 分類 分類したいデータ モデル再構築 最新データ データの発生 過去の少数クラス 学習用データ 2007/4/20 東北大学工学部 橋本研究室 * サンプリング 学習には最新のデータを用いるのがよいが, クラス分布が偏っているので過去の少数クラスの再利用と, 多数クラスの数を減らすことによりデータ分布の偏りをなくす 図3.サンプリングの流れ 少数クラスに分類される事例 多数クラスに分類される事例 過去の少数クラス 最新データ 2007/4/20 * 東北大学工学部 橋本研究室 2007/4/20 東北大学工学部 橋本研究室 * サンプリングによる分散削減 利点:過去の少数クラスも用いることにより,事

文档评论(0)

***** + 关注
实名认证
文档贡献者

本账号下所有文档分享可拿50%收益 欢迎分享

1亿VIP精品文档

相关文档