关联分析进阶概念.PPT

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联分析进阶概念

異常偵測 異常偵測的目的,是要在很多物件中找到不同的物件,通常異常的物件為離群值(outliers),因為在資料的分散圖中離群值會遠離其他的資料點 異常偵測(anomaly detection)也稱為偏差偵測(deviation detection),因為異常物件的屬性值會與預期的或基本的屬性值有顯著的偏差;或也稱為例外探勘(exception mining),因為異常在一些觀念中代表的是例外。 異常的應用範例 詐欺偵測(fraud detection):竊取信用卡者的購買行為可能會與信用卡持有人不同,信用卡公司觀察購買行為模式或注意基本行為的變化,可偵測到竊賊。類似的方法也可用於其他類型的詐欺 入侵偵測(intrusion detection):電腦系統和電腦網路是常見的攻擊行為。部分攻擊是顯而易見的,但如癱瘓電腦和網路的運作並秘密地收集資訊之類的攻擊則是很難偵測的。多數這類的攻擊只要監看系統與網路的異常狀況,即可偵測到 生態系統的混亂(ecosystem disturbances):在真實的世界中,有很多異常事件會對人類造成很大的影響,例如颶風、洪水、乾旱、熱浪與火災。這個目的是要去預測這些事件的可能性以及發生的原因 國民健康(public health):在許多國家,醫院和醫療診所會對國家級組織報告各種統計資料,以便做進一步的分析。例如,若一個城市中的所有小孩已接種某種疫苗(例如麻疹疫苗),則散佈於不同醫院的少數個案就會是一個異常事件,這也代表這個城市有接種疫苗上的問題 醫學(medicine):針對特定的病患,異常的症狀或測試結果代表潛在的健康問題。然而,一個特定測試結果是否為異常,仍要依照病患的其他特徵,如年齡和性別來進行判斷。此外,結果的分類可能為異常的 - 若病患是健康的,則不需要額外的測試;而若這個條件是未被診斷或是未處理的,則會對病患有害 異常發生的原因 資料來自不同類別:一個物件可能與其他物件不同,其原因可能是它有不同的類型或類別 自然的變動:許多資料集合可以由統計分佈來塑模,例如常態(高斯)分佈,當物件與分佈之中心點的距離增加時,會快速降低資料物件的機率 資料測量與收集的錯誤:在資料收集或測量程序中的錯誤是另一種異常來源 異常偵測的方法 以模型為基礎之技術:許多異常偵測技術首先會建立資料的模型,而異常資料通常無法適合這個模型 以鄰近值為基礎之技術:通常必須根據鄰近值來定義物件之間的鄰近值,有一些異常偵測方法是根據這些鄰近值 以密度為基礎之技術:如果物件間的鄰近值已知,則物件間的密度可以很容易算出來 類別標記的使用 監督式異常偵測:監督式異常偵測的技術需要訓練集合中存在有異常與正常的物件(要注意的是有一個以上之正常或異常的類別) 非監督式異常偵測:在許多實際的情況中,並無類別標記。所以要指定一個分數給每個實例(instance),以反應出這個實例是異常的程度 半監督式異常偵測:有時訓練資料包含被標示為正常的資料,且沒有關於異常物件的資訊 處理異常時的重要議題 使用屬性數量來定義異常:根據單一屬性來判斷一個物件是否為異常之問題,和物件屬性值是否有異常之問題一樣 全域與區域觀點:一個物件對所有物件可能是獨特的,但對它的區域鄰居之物件卻是很一般的 哪個點是異常的程度:在一些技術中以二元方法評估物件是否為異常:物件是異常或不是異常 在一個時間中發現一個異常與一次發現很多異常 評估方式:若類別標記可用來發現異常與正常資料,則異常偵測方法的有效性可使用5.7節中的分類效能評估方法來評估 效率:各種異常偵測方法的計算成本有顯著的不同。以分類為基礎之方法會要求有效的來源以建立類別模型,但通常成本不高 異常偵測的方法 異常偵測方法包含:統計的、以鄰近值為基礎、以密度為基礎和以群集為基礎等分類 統計的方法 統計的方法是以模型為基礎之方法;針對資料來建立模型,並以物件有多適合這個模型來評估物件 大多數用在離群值偵測的統計方法是以所建立的機率分佈模型為基礎,並考慮物件有在這個模型中的可能性 一個離群值的機率定義:一個離群值是一個物件,其機率在資料的機率分佈模型中是很低的 辨識一個資料集合中特定之分佈 所使用的屬性數量 混合分佈 在單變量常態分佈中偵測離群值 高斯(常態)分佈是一個最常在統計學中使用的分佈,我們將使用它來描述一個簡單的方法來做統計離群值之偵測 在多變量常態分佈中的離群值 對多變量高斯觀察值而言,我們想要採取的方法會與單變量高斯分佈相似,尤其是如果想要將具有較低機率的資料分類為異常時。此外,我們想要用簡單的檢定的來判斷像是從分佈中心至資料點距離的問題 然而因為不同變數(屬性)之間的相關性,多變量常態分佈的中心並不是呈對稱的 異常偵測之混合模型方法 在分群法中,混合模型方法假設資料

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档