フリーウェアwekaによるdmアプリケーションの構築.ppt

フリーウェアwekaによるdmアプリケーションの構築.ppt

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
フリーウェアwekaによるdmアプリケーションの構築

2004/3/30 第19回 AIシンポジウム(SIG-J) フリーウェアWekaによる DMアプリケーションの構築 阿部秀尚,山口高平 静岡大学 hidenao@ks.cs.inf.shizuoka.ac.jp yamaguti@cs.inf.shizuoka.ac.jp 発表内容 Wekaの紹介 Wekaの基本情報と構成 DMプロセスとWekaの機能 慢性ウィルス性肝炎データマイニングへのWekaの適用 属性構築:クラスタリングによる代表パターンの抽出 マイニング:GUIを使った決定木の実行 Wekaとは? 世界で最も使われているフリーのデータマイニングツール(by KDN) オープンソース開発手法で開発が進められている ワイカト大学(ニュージーランド)が中心に開発 Webを通じて無償で入手可能 http://www.cs.waikato.ac.nz/ml/weka/ 誰もがソースコードにアクセスでき,改変?再配布可能 最新版はVersion 3.4.1 Java言語により実装(=マルチプラットホーム) Windows/MacOS X/JAR(ZIP)の各形式のパッケージにより配布 Wekaの特徴 API,CLI,GUIの各インターフェイスを備える 数多くのデータマイニング手法が利用可能 各種の可視化機能が提供される 商用データマイニングツールに迫る機能や品質 研究段階のアルゴリズムも実行可能 ユーザの試行錯誤により,新たなデータマイニングプロセスが実行可能 ソースコードが公開されているため,アルゴリズムの教育目的に利用可能 アルゴリズムとアルゴリズム内のパラメータが整理されている etc… Wekaの構成 Wekaのインタフェース Wekaの入出力 入力 ARFFファイル CSV (Comma Separated Values)形式ファイル C4.5形式ファイル RDB (Relational Database) 出力 テキスト?オブジェクトファイルによる実行結果 可視化(グラフ,2次元プロット)による実行結果 ARFFの概要 Wekaの出力:Explorerでの例 Wekaの適用分野 テキストマイニング テキストクラスタリング テキスト分類 Webサーバログマイニング 各種表形式データに対するマイニング RDBとの連携 POSデータ DNAマイクロアレイ 慢性肝炎データセット etc. DMプロセスとWekaの機能(1) DMプロセスとWekaの機能(2) Wekaのフィルタ(一部) Wekaのフィルタ(一部) 属性選択アルゴリズム(フィルタアプローチ) 属性選択アルゴリズム(ラッパーアプローチ) DMプロセスとWekaの機能(3) 分類学習?数値予測アルゴリズム(1) 分類学習?数値予測アルゴリズム(2) 分類学習?数値予測アルゴリズム(3) メタスキーム(全23種類,一部) クラスタリング?相関ルール学習 アルゴリズム 発表内容 Wekaの紹介 慢性ウィルス性肝炎データマイニングへのWekaの適用 属性構築:クラスタリングによる代表パターンの抽出 マイニング:GUIを使った決定木の実行 慢性ウィルス性肝炎データセット 慢性ウィルス性肝炎データセット(一部) システムの設計方針 時系列データ離散化 各検査項目の代表パターンを属性とした 慢性肝炎データマイニングの例 Knowledge Flowによるデモ 入力データセットは各患者の約5年間(61×28日)のGPT値 出力はK-meansによるクラスタリングの結果 AddClusterフィルターによるクラスタ付加を実行 Wekaとスクリプト言語の連携による 代表パターンの抽出 Explorerによるデモ 入力データセットは 属性:約5年(61×28日)の検査結果の代表パターン,年齢,性別,肝炎型 クラス:約5年経過後,6ヶ月のGPTの代表パターン 実行するアルゴリズム J4.8:C4.5決定木学習アルゴリズムのJava実装版 まとめ Wekaはデータマイニングプロセスに対し,多くの手法を提供 1入力に対して1出力が基本 DMプロジェクトの立ち上げ期において強力なツールとなる データの前処理では,RDBMS(SQLによる処理)やMUSASHI(意味を考慮した処理)などの外部ツールと連携 複数のデータセットに対応するため,必要に応じて周辺処理を追加 最後に 公式Webページメーリングリスト http://www.cs.waikato.ac.jp/ml/weka/ Wekalist@list.scms.waikato.ac.nz 書籍 I.H. Witten, E. Frank: “Data Mining”, MORGAN KAUFMANN ISBN 1-558

文档评论(0)

maritime5 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档