- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
异质属性的相似度
(C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 (C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 什麼是資料? 資料物件和其屬性的集合 一個屬性是指物件的特性,而其特性可能會隨時間而變動 範例:眼睛的顏色、溫度 屬性值 屬性值可以用數值或是符號來表示 屬性和屬性值的區別 相同的屬性可以對映至不同的屬性值 範例:測量出的長度可以尺或米來表示 不同的屬性可以對映至相同的屬性值集合 範例:身分證字號和年齡這兩種屬性,都可以用整數來表示 屬性的型態 不同的屬性型態 名目 範例:員工編號、眼睛顏色、郵遞區號 順序 範例:成績、金屬硬度 區間 範例:日期、華氏或攝氏溫度 比例 範例:溫度、電子現金 可用以描述屬性的運算特性 差異性: = ? 順序性: 加減: + - 乘除: * / 名目屬性:差異性 順序屬性:差異性、順序性 區間屬性:差異性、順序性、加減 比例屬性:四種皆可 離散型和連續型屬性 離散型屬性 屬性是有限的或是可數的 範例:郵遞區號 通常以整數值表示 注意:二元屬性是離散型屬性的一個例外情形 連續型屬性 屬性值通常為實數 範例:氣溫 通常以浮點數來表示 資料集的型態 記錄型資料 資料矩陣 文件資料 交易資料 圖形資料 全球資訊網(World Wide Web) 分子結構 順序資料 時序資料 序列資料 時間序列資料 空間資料 對資料探勘具重大影響的資料特性 維度 資料集的維度事實上就是物件的屬性,維度愈高的資料愈難分析,有時稱為維度的魔咒(curse of dimensionality) 稀疏性 對一些非對稱屬性資料而言,也許僅1%的資料是不為0;可是實際上,因為只有非0的數值需要被儲存和運算,因此節省很多時間和儲存空間,所以也算是稀疏資料的一項優點 解析度 不同解析度的資料其特性差異很大,例如在以公尺為單位的解析度上看地球的表面是很不平的,但是在以公里為單位的解析度上來看卻又相對平坦。所以如果解析度太大,那麼有些特性可能會因此消失 記錄資料 資料集包含很多固定欄位的記錄 資料矩陣 如果資料物件都有一些相同的屬性,那麼這些資料物件就可以視為一個多維空間中的一點或是向量,其中每個維度表示一個屬性 這些資料物件可以解釋成m ? n 的矩陣,其中m列表示每個物件;n行表示每個屬性 文件資料 如果文件中的某些字詞可被忽略,那麼其文件就可以形成一個字詞向量,也就是將字詞視為一個屬性,如此一來所形成的矩陣稱為文件-字詞矩陣(document-term matrix) 交易資料 是一種特殊的記錄資料類型 每一筆記錄(或稱交易)都包含很多產品項目 範例:顧客在超市的購買記錄。下圖的每一列,表示顧客在特定時間所購買的產品項目 圖形資料 範例:網頁連結和化學元素的結構 順序資料 時序交易資料 順序資料 基因序列資料 順序資料 空間性暫時資料 資料品質 有哪些資料品質的問題? 如何偵測資料的問題? 我們如何處理這些問題? 資料品質的問題包括: 雜訊和離群值 遺漏值 重複性資料 雜訊 雜訊值有可能來自於測量誤差,包含一些資料的扭曲或是不實 下圖是一個刪除雜訊值前後的時間序列 離群值 離群值可能是因為資料物件的某些特性和其他物件不一樣,或者是其屬性值較不常出現在其他物件中 遺漏值 會有遺漏值的原因 某些資料無法完整搜集 (例如,在問卷回答的過程中,很多人不想揭露年齡或是體重 ) 處理遺漏值的方法 刪除資料物件 估計遺漏值 在分析過程中忽略遺漏值 重複性資料 資料有可能包含重複的物件或者是幾乎都是重複的物件 整合來自不同來源的資料時 範例:一個人有多個不同的電子郵件帳號 資料清理(data cleaning) 處理重複性資料的過程 資料前處理 聚合 抽樣 維度縮減 特徵選取 特徵的產生 離散化及二元化 變數的轉換 聚合 假設有一個記錄產品在各分店每日交易的資料,我們可以用聚合的觀念將每個分店的每日銷售額彙總出來,如此一來資料量就可以大幅降低 聚合的範例 抽樣 抽樣是用來選取欲分析資料的主要技術 通常用在資料調查及資料分析上 統計學上的抽樣主要在於要得到所有資料太過耗時 資料探勘的抽樣主要在於計算的時間太過耗時 抽樣 … 有效的抽樣原則在於樣本必須是具有代表性: 抽樣的樣本所得到的結果會和整個原始資料的結果很接近 如果某一個資料的平均數很接近整體資料的平均數,那麼就具有代表性 抽樣的方
您可能关注的文档
- 信息安全基础与ISEC项目-中国安全网.ppt
- 俯拾即是的生活课程资源青蛙一蹦一跳逗得同学们哈哈大笑。.ppt
- 会计系统操作.doc
- 停止放映Windows结构-软件开发技术基础-西安交通大学.ppt
- 儿童[生死教育]之理念与实施.doc
- 全国计算机等级考试三级笔试超级模拟试卷(一).doc
- 全市性社会团体2015年度检查财务审计报-社会组织.doc
- 信息技术教育与创新人才培养(下)-教师文档网.doc
- 全国非煤矿山外包工程安全生产信息平台(一期)-国家安全生产监督管理.doc
- 偷发W出土文I与古文字研究中心网站.doc
- 餐饮行业产品上新报告(2025年5月).pptx
- 全球即插即用太阳能解决方案行业研究报告.pdf
- 2025养老机器人行业市场需求空间、产业链及相关标的分析报告.pdf
- 通信行业2025:智能体应用泛化时刻到来,关注算力与端侧硬件.pdf
- 2025年脱毛仪品牌推荐:百亿级“无痛脱毛”经济爆发,技术迭代催生消费新刚需.docx
- 行业洞察:全球油气并购展望2025年Q1.docx
- 海外红人营销SaaS行业研究报告.pptx
- 智能科技:以人工智能驱动数智化转型新蓝图.pptx
- 人形机器人行业:多传感融合&材料构建具身智能.pdf
- 2025年脱毛仪品牌推荐:百亿级“无痛脱毛”经济爆发,技术迭代催生消费新刚需.pdf
最近下载
- 肺结核的诊断及鉴别诊断.doc VIP
- 高考题型逐个击破10应用文写作升级之咨询信(必备素材,写作模版,写作训练)(解析版)-2025届高三英语一轮复习闯关攻略.docx VIP
- 施耐德微段 ACTI9选型手册pdf.pdf VIP
- EKD 316 中文.pdf VIP
- 江苏师范大学《物理化学》教学PPT第9章 可逆电池的电动势及其应用.ppt VIP
- 第5章星间链路及星座组网技术20121007电子科技大学.ppt VIP
- GB/T 4490-2021织物芯输送带 宽度和长度.pdf
- 2025年江苏译林版八年级下册英语单词默写表.pdf VIP
- 风电场项目工程建设监理投标文件.pdf VIP
- 危险废物规范化管理培训课件.pptx VIP
文档评论(0)