异质属性的相似度.pptVIP

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
异质属性的相似度

(C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 (C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 什麼是資料? 資料物件和其屬性的集合 一個屬性是指物件的特性,而其特性可能會隨時間而變動 範例:眼睛的顏色、溫度 屬性值 屬性值可以用數值或是符號來表示 屬性和屬性值的區別 相同的屬性可以對映至不同的屬性值 範例:測量出的長度可以尺或米來表示 不同的屬性可以對映至相同的屬性值集合 範例:身分證字號和年齡這兩種屬性,都可以用整數來表示 屬性的型態 不同的屬性型態 名目 範例:員工編號、眼睛顏色、郵遞區號 順序 範例:成績、金屬硬度 區間 範例:日期、華氏或攝氏溫度 比例 範例:溫度、電子現金 可用以描述屬性的運算特性 差異性: = ? 順序性: 加減: + - 乘除: * / 名目屬性:差異性 順序屬性:差異性、順序性 區間屬性:差異性、順序性、加減 比例屬性:四種皆可 離散型和連續型屬性 離散型屬性 屬性是有限的或是可數的 範例:郵遞區號 通常以整數值表示 注意:二元屬性是離散型屬性的一個例外情形 連續型屬性 屬性值通常為實數 範例:氣溫 通常以浮點數來表示 資料集的型態 記錄型資料 資料矩陣 文件資料 交易資料 圖形資料 全球資訊網(World Wide Web) 分子結構 順序資料 時序資料 序列資料 時間序列資料 空間資料 對資料探勘具重大影響的資料特性 維度 資料集的維度事實上就是物件的屬性,維度愈高的資料愈難分析,有時稱為維度的魔咒(curse of dimensionality) 稀疏性 對一些非對稱屬性資料而言,也許僅1%的資料是不為0;可是實際上,因為只有非0的數值需要被儲存和運算,因此節省很多時間和儲存空間,所以也算是稀疏資料的一項優點 解析度 不同解析度的資料其特性差異很大,例如在以公尺為單位的解析度上看地球的表面是很不平的,但是在以公里為單位的解析度上來看卻又相對平坦。所以如果解析度太大,那麼有些特性可能會因此消失 記錄資料 資料集包含很多固定欄位的記錄 資料矩陣 如果資料物件都有一些相同的屬性,那麼這些資料物件就可以視為一個多維空間中的一點或是向量,其中每個維度表示一個屬性 這些資料物件可以解釋成m ? n 的矩陣,其中m列表示每個物件;n行表示每個屬性 文件資料 如果文件中的某些字詞可被忽略,那麼其文件就可以形成一個字詞向量,也就是將字詞視為一個屬性,如此一來所形成的矩陣稱為文件-字詞矩陣(document-term matrix) 交易資料 是一種特殊的記錄資料類型 每一筆記錄(或稱交易)都包含很多產品項目 範例:顧客在超市的購買記錄。下圖的每一列,表示顧客在特定時間所購買的產品項目 圖形資料 範例:網頁連結和化學元素的結構 順序資料 時序交易資料 順序資料 基因序列資料 順序資料 空間性暫時資料 資料品質 有哪些資料品質的問題? 如何偵測資料的問題? 我們如何處理這些問題? 資料品質的問題包括: 雜訊和離群值 遺漏值 重複性資料 雜訊 雜訊值有可能來自於測量誤差,包含一些資料的扭曲或是不實 下圖是一個刪除雜訊值前後的時間序列 離群值 離群值可能是因為資料物件的某些特性和其他物件不一樣,或者是其屬性值較不常出現在其他物件中 遺漏值 會有遺漏值的原因 某些資料無法完整搜集 (例如,在問卷回答的過程中,很多人不想揭露年齡或是體重 ) 處理遺漏值的方法 刪除資料物件 估計遺漏值 在分析過程中忽略遺漏值 重複性資料 資料有可能包含重複的物件或者是幾乎都是重複的物件 整合來自不同來源的資料時 範例:一個人有多個不同的電子郵件帳號 資料清理(data cleaning) 處理重複性資料的過程 資料前處理 聚合 抽樣 維度縮減 特徵選取 特徵的產生 離散化及二元化 變數的轉換 聚合 假設有一個記錄產品在各分店每日交易的資料,我們可以用聚合的觀念將每個分店的每日銷售額彙總出來,如此一來資料量就可以大幅降低 聚合的範例 抽樣 抽樣是用來選取欲分析資料的主要技術 通常用在資料調查及資料分析上 統計學上的抽樣主要在於要得到所有資料太過耗時 資料探勘的抽樣主要在於計算的時間太過耗時 抽樣 … 有效的抽樣原則在於樣本必須是具有代表性: 抽樣的樣本所得到的結果會和整個原始資料的結果很接近 如果某一個資料的平均數很接近整體資料的平均數,那麼就具有代表性 抽樣的方

文档评论(0)

18273502 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档