Clementine资料采集入门.pptVIP

下载本文档

1
0
约1.82千字
约 15页
2018-04-05 发布于河南
举报
版权申诉

Clementine资料采集入门.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Clementine资料采集入门

CAPRI Course Chapter3 資料採礦入門 3.1 資料採礦回顧 3.2 機器學習技術 3.3 潛在資料採礦應用評估 3.4 資料採礦的策略 3.5 小技巧 3.1 資料採礦回顧在許多類型的技術中，資料採礦用於辨認大量資料中所潛藏的有價值資訊，並將所得到的訊息使用在決策支援、預測、估計等領域中。在電腦識別資料間潛在關係和特徵時，將自己或專家對資料的知識與先進的、靈活的分析技術結合起來才能獲得成功。對於不同的分析目的以及資料型式，會經過資料準備與整理、瀏覽與視覺化、統計分析、假設檢定……等不同的步驟，以獲得有價值的訊息。 3.2 機器學習技術類神經網路是類比神經系統執行的簡單模型。它的基本單位是神經元，它們一般組織在一起形成層次。 3.2 機器學習技術續1 類神經網路較不令人滿意的地方在於做決策時是不透明的，然而決策樹模型在這方面的表現卻是相當優異。 3.2 機器學習技術續2 關聯規則： ●與大多數決策樹演算法相比，關聯規則演算法的優勢在於，一種決策樹演算法只能構築單個結論的規則，而關聯規則演算法試圖尋找出多條規則，每條規則都可得出一個相應的結論。 ●關聯規則演算法的缺點在於，它試圖在一個可能是龐大的搜索空間中尋找模型，因此會比決策樹演算法花費更多的時間，且産生的規則並不能像標準模型（如決策樹或類神經網路）那樣直接用於預測。 3.2 機器學習技術續3 統計模型： ●線性迴歸模型試圖在引數欄位區域中尋找一條直線或一個面，使得預測值和觀測輸出值間差異最小。 ●Logistic迴歸模型在某種程度上是比較複雜的，主要用來預測字元型因變數的每一個可能值的概率。 ●統計模型已經出現很長時間，而從數學角度較易理解。它們展示了假設資料間存在簡單關係的幾種基本模型。 3.2 機器學習技術續4 聚類模型： ●聚類模型主要用於辨別相似記錄組並將這些記錄按它們所屬的不同組別進行標誌。聚類分析對這些組別和它們的屬性沒有事先的瞭解。這種模型常被稱爲無監督的學習模型。 ●聚類模型常用於分出類別或層次，而類別常用做下一階段分析的引數。 ●常用的演算法有K-means與Kohonen網路。 K-means Kohonen網路 3.3 潛在資料採礦應用評估並非所有的問題都可順利地藉由資料採礦獲得解決方法，有些存在的問題會阻礙資料採礦流程的進行。 ●資料是否可以獲得？ ●資料是否包含所需要瞭解的屬性？ ●資料是否有雜訊？ ●資料的數量是否足夠？ ●能否獲得關於資料的專家知識？ 3.4 資料採礦的策略與許多商業努力一樣，如果從一個有計劃的，系統化的方式出發，資料採礦將會更有效率。在進行資料採礦工作前，可先思考以下的問題： ●主要想解決什麽樣的問題？ ●資料來源為何，與目前問題相關的又是哪部分資料？ ●需要做什麽樣的資料預整理和資料清理？ ●使用什麽樣的資料採礦技巧？ ●如何評估資料採礦的分析結果？ ●如何將資料採礦中所得到的資訊發揮其最大的功用？ CRISP-DM過程模型 3.5 小技巧要使用歸納方法、類神經網路、或是統計模型？ ●如果你不肯定哪些屬性是重要的，首先通過歸納得出一條規則通常是有意義的。然後根據規則結果，利用filter節點，把資料的欄位進行刪剪，只留下那些重要的，規則明顯的欄位。這可在訓練一個網路或統計模型前選擇一個較好的欄位子集。 ●統計方法常是迅捷且相對簡單。因此，它們常做爲基準模型，去比較需要耗時的機器學習技術。 3.5 小技巧續1 資料是否均衡？假設有兩種結果：低的或高的。90％的案例是低的，只有10％是高的。類神經網路對這樣有偏資料的處理是相當糟糕的。它們只會學習低的結果並試圖忽略高的結果。抽樣利用抽樣方法可以改善上述的問題，此外，在大量資料集基礎上開始工作前，可先抽取一個較小的樣本，這將使你在進行較簡單的實驗性分析時執行的更快。 3.5 小技巧續2 異常結果的檢視當檢驗模型時，特別注意一下作出錯誤預測的案例。對這樣的異常，運用Clementine系統的資料分析功能，將會給出原始訓練資料中的弱點提示，這將提示怎樣去修正模型。 ? ISL 2000 * ? ISL 1999 * Agenda Web-mining @tInternet March 2000 * * *