数据挖掘-聚类方法.pptVIP

下载本文档

0
0
约2.05千字
约 23页
2018-02-13 发布于江西
举报
版权申诉

数据挖掘-聚类方法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘-聚类方法

Data mining – clustering methods 數據挖掘-聚類方法飲水思源上禮拜Data mining之介紹有說到分成下列五項功能： (1)分類(classification) (2)推估(estimation) (3)預測(prediction) (4)關聯分組(affinity grouping) (5)同質分組(clustering) 這次我們要講的是其中的第五點，同質分組，另一種標準說法則是稱作數據聚類。數據聚類入門 1.數據聚類是為一種非監督式學習。 2.是靜態數據分析的一門技術。 3.聚類是把相似的對象通過靜態分類的方法分成不同的組別或者更多的子集（subset）,這樣讓在同一個子集中的成員對象都有相似的一些屬性。非監督式學習非監督式學習是一種機器學習的方式，並不需要人力來輸入標籤。是相對於監督式學習和強化學習等策略來說的一種選擇。在監督式學習中，典型的任務是分類和迴歸分析，且需要使用到人工預先準備好的範例。機器學習是人工智慧的一個子領域，主要關注於開發一些讓計算機可以自動「學習」的技術。更具體說，機器學習是一種用於創建數據集分析分析程序的方法。機器學習跟統計學有著重要的關係，因為這兩個領域都是研究數據分析，但是又不像統計學，機器學習關注的是計算實現的演算法複雜度。很多推論問題屬於無程序可循難度，所以部分的機器學習研究是開發容易處理的近似演算法。聚類方法大多數現有的方法是屬於基礎或是概率的方法，有分成距離和相似性措施。基於距離的方法，如畝均值分析分層聚類最近鄰聚類使用選定的一組字（功能）出現在不同的文件的尺寸。每一個這樣的特徵向量，代表的文件，可以被看作是在這個多點維空間。畝均值分析分層聚類最近鄰聚類技術問題有一個數字集群的問題與在一個多用傳統的三維空間的距離或概率為基礎的方法。首先，這不是小事定義一個距離度量在這個空間。有些字更頻繁的文件比其他的話。簡單的發生頻率的話是不夠的，因為一些文件大於其他人。此外，有些話可能會經常跨越文件。技術，如TFIDF [SM83]已經提出正是為了處理其中的一些問題。第二，所有的數目字，在所有的文件可能非常大。距離為基礎的計劃，一般需要計算平均數的文件群。如果維數高，則計算出的平均值沒有明顯的差別，從一組到下一個。因此，基於這些聚類平均值並不總是能產生很好的集群。同樣，概率方法，如貝葉斯分類法在AutoClass [CS96]，表現不好的規模時，該功能空間遠遠大於大小的樣本集。這種類型的數據分佈的特徵似乎是分類的申請文件在網絡上，如分類書籤文件。此外，基本概率模型通常假定的獨立屬性（功能）。在許多領域，這種假設可能過於局限。它可以減少維數只選擇頻繁的話，從每個文件，或用其他方法提取的突出特點每個文檔。然而，這個數字採集功能使用這些方法往往仍很大。 AutoClass AutoClass是基於概率混合模型[TSM85]，並且獲得的數據集它找到的最高參數值為特定的概率分佈函數的集群。聚類結果提供充分說明，在計算每一組的概率分佈每個屬性。該方法首先用醋酸瑣碎組，每個組包含一個文件，並反复結合較小的簇應有足夠的``接近“基於距離度量。我們建議的聚類算法中所描述的本節的目的是有效地處理高維空間，而且，它們不需要定義特設距離或相似性度量。對於我們的評價，我們比較這些算法的兩個眾所周知的方法：貝葉斯分類的使用AutoClass [CS96]和層次凝聚聚類（HAC計）根據使用距離函數[DH73]。相似性方法-例如生物計量學生物計量學（biometrics，也稱生物測定學），原指用數理統計方法對生物進行分析，現在多指對生物體（一般特指人）本身的生物特徵來區分生物體個體的計算機技術。研究領域主要包括語音、臉、指紋、手掌紋、虹膜、視網膜、體形、個人習慣（例如敲擊鍵盤的力度和頻率、簽字）等，相應的識別技術就有說話人識別、人臉識別、指紋識別、掌紋識別、虹膜識別、視網膜識別、體形識別、鍵盤敲擊識別、簽字識別等。整理-有論文提出方法審查空間聚類方法，這被認為是一個重要組成部分的空間數據挖掘。提交人分類方法分為四類：分割法分層方法基於密度的方法基於網格的方法。分割法分層方法基於密度的方法基於網格的方法區分方法分區方法如K -均值的K -中心點和EM聚類的方法，使利用了一種稱為迭代technique重新分配，以改善聚類質量從最初的解決方案。這些方法往往會發現集群屬於spherical形狀，