- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
フリーウェアwekaによるdmアプリケーションの構築
2004/3/30 第19回 AIシンポジウム(SIG-J) フリーウェアWekaによるDMアプリケーションの構築 阿部秀尚,山口高平 静岡大学 hidenao@ks.cs.inf.shizuoka.ac.jp yamaguti@cs.inf.shizuoka.ac.jp 発表内容 Wekaの紹介 Wekaの基本情報と構成 DMプロセスとWekaの機能 慢性ウィルス性肝炎データマイニングへのWekaの適用 属性構築:クラスタリングによる代表パターンの抽出 マイニング:GUIを使った決定木の実行 Wekaとは? 世界で最も使われているフリーのデータマイニングツール(by KDN) オープンソース開発手法で開発が進められている ワイカト大学(ニュージーランド)が中心に開発 Webを通じて無償で入手可能 http://www.cs.waikato.ac.nz/ml/weka/ 誰もがソースコードにアクセスでき,改変?再配布可能 最新版はVersion 3.4.1 Java言語により実装(=マルチプラットホーム) Windows/MacOS X/JAR(ZIP)の各形式のパッケージにより配布 Wekaの特徴 API,CLI,GUIの各インターフェイスを備える 数多くのデータマイニング手法が利用可能 各種の可視化機能が提供される 商用データマイニングツールに迫る機能や品質 研究段階のアルゴリズムも実行可能 ユーザの試行錯誤により,新たなデータマイニングプロセスが実行可能 ソースコードが公開されているため,アルゴリズムの教育目的に利用可能 アルゴリズムとアルゴリズム内のパラメータが整理されている etc… Wekaの構成 Wekaのインタフェース Wekaの入出力 入力 ARFFファイル CSV (Comma Separated Values)形式ファイル C4.5形式ファイル RDB (Relational Database) 出力 テキスト?オブジェクトファイルによる実行結果 可視化(グラフ,2次元プロット)による実行結果 ARFFの概要 Wekaの出力:Explorerでの例 Wekaの適用分野 テキストマイニング テキストクラスタリング テキスト分類 Webサーバログマイニング 各種表形式データに対するマイニング RDBとの連携 POSデータ DNAマイクロアレイ 慢性肝炎データセット etc. DMプロセスとWekaの機能(1) DMプロセスとWekaの機能(2) Wekaのフィルタ(一部) Wekaのフィルタ(一部) 属性選択アルゴリズム(フィルタアプローチ) 属性選択アルゴリズム(ラッパーアプローチ) DMプロセスとWekaの機能(3) 分類学習?数値予測アルゴリズム(1) 分類学習?数値予測アルゴリズム(2) 分類学習?数値予測アルゴリズム(3) メタスキーム(全23種類,一部) クラスタリング?相関ルール学習アルゴリズム 発表内容 Wekaの紹介 慢性ウィルス性肝炎データマイニングへのWekaの適用 属性構築:クラスタリングによる代表パターンの抽出 マイニング:GUIを使った決定木の実行 慢性ウィルス性肝炎データセット 慢性ウィルス性肝炎データセット(一部) システムの設計方針 時系列データ離散化 各検査項目の代表パターンを属性とした慢性肝炎データマイニングの例 Knowledge Flowによるデモ 入力データセットは各患者の約5年間(61×28日)のGPT値 出力はK-meansによるクラスタリングの結果 AddClusterフィルターによるクラスタ付加を実行 Wekaとスクリプト言語の連携による代表パターンの抽出 Explorerによるデモ 入力データセットは 属性:約5年(61×28日)の検査結果の代表パターン,年齢,性別,肝炎型 クラス:約5年経過後,6ヶ月のGPTの代表パターン 実行するアルゴリズム J4.8:C4.5決定木学習アルゴリズムのJava実装版 まとめ Wekaはデータマイニングプロセスに対し,多くの手法を提供 1入力に対して1出力が基本 DMプロジェクトの立ち上げ期において強力なツールとなる データの前処理では,RDBMS(SQLによる処理)やMUSASHI(意味を考慮した処理)などの外部ツールと連携 複数のデータセットに対応するため,必要に応じて周辺処理を追加 最後に 公式Webページメーリングリスト http://www.cs.waikato.ac.jp/ml/weka/ Wekalist@list.scms.waikato.ac.nz 書籍 I.H. Witten, E. Frank: “Data Mining”, MORGAN KAUFMANN ISBN 1-558
您可能关注的文档
最近下载
- 专升本语文资料.docx VIP
- 西南15G701-2-混凝土结构轻质填充墙构造图集.pdf
- 《在祖国怀抱里课件》小学音乐冀少2011课标版三年级上课件.ppt
- 烹饪专业调研报告.pdf
- 城市轨道交通安全管理项目2城市轨道交通危险源辨识与安全标志.pptx VIP
- 铁工电〔2023〕54号 国铁集团关于印发《普速铁路工务安全规则》的通知.docx VIP
- 新人教版(部编)一年级语文上册《文语文园地六和大人一起读》优质课教案_20.pdf
- 燃气管道第三方施工管理安全技术规范.pdf
- 生活中的位置(课件)2024-2025-学年度苏教版(2024)数学一年级上册.pptx VIP
- 说课评价量表.doc VIP
文档评论(0)