- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PPT下載 - IBM Intelligent Miner V81 Cluster 分群使用手冊
IBM Intelligent Miner V8.1Cluster 分群使用手冊 元智資管所 林宜鋒(Evan Lin) MIS Dept., Yuan Ze Univ., Taiwan s917725@.tw 大綱 如何使用範例資料來探勘 Cluster的種類 RDF 如何設定 如何探勘 資料如何解釋 類神經網路 如何設定 如何探勘 資料如何解釋 兩者的差距 使用樣本資料 使用範例探礦基地的資料 啟動 DB2 目錄下 bin/idmstartdemo.bat來啟動範例展示模式。 再登入IM 系統,開啟採礦基地 選取[分類、叢集化、預測]範例資料 資料說明 叢集化的範例資料本身是保險公司的保單資料。裡面充滿了以下幾種欄位 : 範例說明 假設我們是一個保險從業人員,而我們具有許多的保險資料檔。我們該如何從裡面去針對我們的客戶作分群的工作呢?並且我們該如何去解釋這樣分群結果是否正確呢? 人口統計叢集法 RBF、K-mean 類神經網路叢集法 SOM 叢集化分析 叢集化分析 分成人口統計、類神經兩種叢集化的分析方式。 分析結果 透過人口統計的方式,將原來的資料來源分成九個叢集資料。這樣的資料呈現了以下的某些特性: 『汽車類型』為主要的叢集化的區隔因子 『撫養人數』會是第二個關鍵因子,作為叢集化的區隔因子。 接下來利用『類神經』分析的方式來作叢集化 分析『人口統計』與『類神經』差別 叢集化的數目、品質 在本案例之中,叢集的個數在兩個方式是相同的。但是品質上確有相當大的差距。在類神經的處理方式上,整個叢集的大小都是比較平均,並且叢集的品質也較好。 關鍵因子的判別上 在兩個方法之中,兩個影響的因子其實都差不多。所以可以透過這樣的叢集化的結果來看出來。保險單的資訊,會根據著被保人的『車輛種類』、或是『撫養小孩個數』來作個區隔。 * * ?婚姻狀況? ?年齡? ?性別? ?撫養人數? ?薪水? ?請求賠償次數? ?通勤距離? ?週期? ?重訂契約月份? ?首張保險單年份? 單身 103.38 男性 2 39117.2 7 73.16 5 一月 1991 離婚 49.82 男性 0 40120.2 1 -1.67 5 一月 1993 已婚 97.01 女性 0 39611.2 4 33.41 5 一月 1991 已婚 95.17 男性 3 40018.7 4 35.1 5 一月 1991 離婚 98.36 女性 4 40670.6 8 77.26 5 一月 1991 到採礦區選擇叢集化採礦。選擇建立一個新的採礦。 填好設定值名稱後,直接按下一步。 選定預設的保險資料來當作輸入資料 在人口統計中,可以設定叢集的個數。來達到我們需要的叢集結果,也可以透過調整精確度來達到更好的結果。 在這裡選取了作用中與保險單比較有關的欄位為:薪水、年齡、汽車種類、請求賠償金額。其他的為補充欄位(透過補充欄位可以來解釋我們的資料) 選取輸出的欄位,可以讓我們更容易瞭解叢集的關係,與該欄位的原始值 為了以後方便觀看結果,我們將結果輸出成另外一個資料集,並且放在資料庫之中。 將輸出結果定義名稱,並且設定可以覆寫(以後再重新執行一次,才能將結果寫到最新的檔案中) 執行該項結果,並且等待結果的出現 叢集的ID:就是將該叢集中的屬性 以下都是該叢集中的每個欄位的分佈狀況,以下一一解釋代表意義。 該叢集佔據全部資料的多少百分比 第一個叢集中最重要的欄位:汽車類型 外圈代表得是全部資料來源中的屬性分配狀況。在此範例中,我們可以看出來小行車佔整體有30%的分配。 內圈代表的是此叢集中的分配狀況,在此範例中我們可以看出小型車是佔有完全的分配。也就是說此一個叢集最重要屬性特性是裡面汽車類型全部屬於小型車。 透過文字的分析,可以清楚的瞭解到說在叢集化的因子之中,我們首先會利用『汽車的類型』來作一個大量的叢集效果。接下來我們會利用『撫養人數』來做為我們叢集化的效果。 在採礦的地方,選擇『類神經』。並且在選項上面,勾選顯示進階選項。 勾選在時間上作最佳化,可以讓整個分析在速度上會增快。 參數的選擇上,如果要較仔細的分析結果,可以將最大列數(最大欄數)數值加大。但是會讓叢集化結果較為微弱。 並且在『處理階段』上面,可以使用較大的一些參數。但是該參數影響叢集化品質的效率並不大。 欄位的選擇上,選擇與『人口統計法』相同的資料欄位。可以用來比較兩者方法上的差異。 在離群值的處理上,我們建議是使用 『利用MIX、MIN來取代』的方式。可以讓作業上、人為上失誤所造成的離群值。獲得稍微的一個補救方式。這樣也讓我們的值,不會差異太大。叢集出來的結果,相對的也會比較好。 輸出得資料上面,也是選擇與「人口統計』方式相
您可能关注的文档
- nicholson微观经济理论(答案+PPT+习题库)-ch01.ppt
- nicholson微观经济理论(答案+PPT+习题库)-ch03.ppt
- nicholson微观经济理论(答案+PPT+习题库)-ch04.ppt
- nicholson微观经济理论(答案+PPT+习题库)-ch06.ppt
- MRI诊断入门病例(二)_图文.ppt
- nicholson微观经济理论(答案+PPT+习题库)-ch05.ppt
- NMR Characterization of Sidewall Functionalized SWNT[侧壁功能化的SWNT的NMR表征](PPT-31).ppt
- nicu综合技巧在神经外科医学中的临床应用[精彩].ppt
- MRI入门及妇科肿瘤的MRI诊断应用_图文.ppt.ppt
- Opticchasm[视神经鸿沟](PPT-50).ppt
最近下载
- 统编小学语文五年级下册作业设计(全册).doc VIP
- 建筑工程图集 07CJ03-1:轻钢龙骨石膏板隔墙、吊顶(参考图集).pdf VIP
- 基于后悔理论和三支决策理论的智能通道匹配系统及方法.pdf VIP
- 驻场服务人员管理办法.docx VIP
- 一年级上册语文数学无纸笔测试精品课件.pptx VIP
- 煤矿井下机电设备完好性要求(KA25—2025).docx
- 金蝶云星空 V9.0_产品培训_财务_总账.pptx VIP
- 【倍福BECKHOFF】手册:TwinCAT 2 PLC入门教程V2.42.pdf VIP
- 电子教案《交往与合作》第二单元第四课组建自己小团队1.docx VIP
- 轨道交通供电系统故障诊断技术.pptx
原创力文档


文档评论(0)