【精品PPT】资料采矿.ppt

下载文档 降价啦

0
0
约1.8万字
约 119页
2018-04-29 发布于浙江
举报
版权申诉
保障服务

【精品PPT】资料采矿.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

【精品PPT】资料采矿

影響汽車耗油量因素分析步驟 Step1:匯入資料 Step2:利用Rule來協助探索引擎 Step3:探索資料集合 Step4:產生一個新的資料集合 Step5:使用與了解Find Dependencies探索引擎 Step6:產生補集配對和蛇行圖 Step7:產生長方圖 Step8:分割並編輯資料集合 Step9:資料視覺化選擇特徵 Step10:使用Cluster探索引擎 Step11:使用蛇行圖來比較資料集合 Step12:使用Real 3D圖表來比較資料集合 Step13:以階梯式線性迴歸來進行資料採礦分析 Step14:視覺化工具來輔助資料採礦分析 Step15:以PolyNet Predictor來做資料採礦分析 Step16:利Find Laws(FL)引擎做資料採礦分析 Step17:利用圖形分析找出關係 Step18:使用與了解決策樹(Decision Tree) 資料匯入 Step 2: Creating a Rule?to Aid Exploration Engines 建立Rule-age 應用Rule至World資料集合建立Rule-age1 建立另一個Rule，這個屬性建立後並沒有為零的數值，可以使Find Laws探索引擎更容易建立模型，因被除零的機會減少。此Rule命名為age1。計算公式為:83-Year 按OK確定。利用SS探索資料集合 SS圖形報表 Step 4: Create a New Dataset 產生新的資料集合使用與了解 Find Dependencies 找尋一個與mpg屬性有相依關係的隱含記錄之前，我們需排除或找尋特殊案例或是異常值，來做分析，在這個案例中我們決定使用特殊的案例來做分析。我們利用特殊的案例來做分析的原因在於我們要找出對mpg最具影響力的屬性。利用Find Dependencies探索引擎文件報表圖形報表(1) 圖形報表(2) 車齡區間記錄有23筆，而車重的區間記錄有22筆，在這記錄中只有一筆是不屬於這個相同的分布模型中。經由這個表來觀察預測的mpg值，可以發現到車齡越大，對於這輛車的mpg預測就越小，車重越重，這台車的經濟效益越差。補集配對目的在成完FD探索後，在樹狀圖區會出現一個FD_mpg，這是利用FD探索引擎所產生的一個新資料集合，這資料集合內的資料是FD所找出的正常值。在利用FD探索引擎後，文件報表上發現有39筆是特殊的案例，我們針對這些特殊案例在做更進一步的分析。把這些特殊的案例從資料集合中挑出來，這個方法叫做補集配對。產生補集配對補集配對資料集合命名補集配對資料集合的產生蛇行圖目的利用蛇行圖來協助同時比較數個資料集合對於所有的屬性在同一性質上的比較，就這個例子而言，我們要比較出正常值與特殊的案例中之間有何特別的差異性。當Normalize by dispersion確方塊被點選時，提供屬性數值在整個World資料集合中分布的正常化。相反的，當Normalize by dispersion確認方塊沒有被點選時這個圖表使用1‘s(high)、0’s(low)指出這個資料集合的差異。蛇行圖 Step 7: Creating A Histogram 產生長方圖長方圖長方圖的資料記錄 Step 8: Splitting and Editing a Dataset 分割資料集合目的針對長方圖再做車齡更細部的分析，首先我們將資料集合分成兩大部份，一部份為車齡較小者，另一部分為較舊有的車，因從長方圖所見，在4-5年後，有較明顯的間隔，就從車齡5年做為分隔的中間點，再利用蛇行圖將其新舊車做各屬性間比較，分析特殊案例中其新、舊車上有何特殊的特徵，來做深入了解為什麼Find Dependencies探索引擎會選擇以新、舊車做為特殊的案例。產生分割資料集合分割資料集合分割資料集合的產生更改資料集合名稱建立蛇行圖蛇行圖產生2D-Chair圖選擇資料集合產生2D-Chart圖-X軸 2-D圖表選取資料新資料集合產生 Economy資料集合在這些最具經濟性的車輛中，發現它們大部份是柴油引擎車，而這些車幾乎都在歐洲Volkswagen所製造的。如果考慮購買最節省油的汽車，會推薦你Mazda GlC的車子。 2-D圖形的結論針對Economy資料集合做Summary Statistics，再與Explored的統計結果來比較，會得出有關這些最具經濟性車輛的結論：它們只有四個汽缸。它們的汽缸匯置和馬力小於大約平均車輛的兩倍。它們的車重較平均的車輛輕30%，且車齡小於平均車輛三倍。它們都是在日本和歐洲製造的。群集探勘引擎目的在做資料採礦前，對於這些資料不清楚，且想對於這些資料做全部屬