- 1、本文档共57页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘3prep.ppt
Data Mining: Concepts and Techniques Data Mining: Concepts and Techniques — Slides for Textbook — — Chapter 3 — ?Jiawei Han and Micheline Kamber Department of Computer Science University of Illinois at Urbana-Champaign /~hanj Chapter 3: Data Preprocessing Why preprocess the data? Data cleaning Data integration and transformation Data reduction Discretization and concept hierarchy generation Summary Why Data Preprocessing? Data in the real world is dirty incomplete: lacking attribute values, lacking certain attributes of interest, or containing only aggregate data e.g., occupation=“” noisy: containing errors or outliers e.g., Salary=“-10” inconsistent: containing discrepancies in codes or names e.g., Age=“42” Birthday=“03/07/1997” e.g., Was rating “1,2,3”, now rating “A, B, C” e.g., discrepancy between duplicate records Why Is Data Dirty? Incomplete data comes from n/a data value when collected different consideration between the time when the data was collected and when it is analyzed. human/hardware/software problems Noisy data comes from the process of data collection entry transmission Inconsistent data comes from Different data sources Functional dependency violation Why Is Data Preprocessing Important? No quality data, no quality mining results! Quality decisions must be based on quality data e.g., duplicate or missing data may cause incorrect or even misleading statistics. Data warehouse needs consistent integration of quality data Data extraction, cleaning, and transformation comprises the majority of the work of building a data warehouse. —Bill Inmon Multi-Dimensional Measure of Data Quality A well-accepted multidimensional view: Accuracy Completeness Consistency Timeliness Believability Value added Interpretability Accessibility Broad categories: intrinsic, contextual, representational, and accessibility. Major Tasks in Data Preprocessing Data cleaning Fill in missing values, smooth noisy data, identify or remove outliers, and resolve inconsistencies
您可能关注的文档
- 数值计算方法在凸轮设计与优化中的应用.pdf
- 数字PID控制算法53591.ppt
- 数字PID控制算法55864.ppt
- 数字PID控制算法55939.ppt
- 数字pid控制算法56246.ppt
- 数字PID控制算法56336.ppt
- 数字TDC技术在相位式激光测距中的应用研究.pdf
- 数字信号处理206067.ppt
- 数字信号处理_Lecture24.ppt
- 数字信号处理——Chapt2.ppt
- 参考学习资料 生物学习 万多黏盲鳗.pdf
- 参考学习资料 生物学习 新疆迟滞鳄类新材料.pdf
- 参考学习资料 生物学习 尤嘉鲂甲鱼新标本.pdf
- 参考学习资料 生物学习 犹他州南部上三叠世岩石地层学、沉积体系和古脊椎动物.pdf
- 参考学习资料 生物学习 亚利桑那州钦勒群上三叠统猫头鹰岩层的四足动物群.pdf
- 参考学习资料 生物学习 斜横螈科组织学骨组织研究的初步成果.pdf
- 参考学习资料 生物学习 新南威尔士的一种奥陶纪脊椎动物.pdf
- 参考学习资料 生物学习 异甲鱼亚纲内部系统发育关系.pdf
- 参考学习资料 生物学习 伊朗中部Negheleh剖面中泥盆世牙形石生物地层的修订.pdf
- 参考学习资料 生物学习 用超基质法研究盲鳗科的分子系统发育和分类.pdf
最近下载
- 公路中小跨径钢-混组合梁桥标准图集(制订)》技术方案报告.docx VIP
- Q 003-2017_有机鲜食粘玉米加工技术规程.pdf VIP
- 医院病历质量管理评价制度及奖惩办法(5篇范文).docx VIP
- 向上管理与沟通向上沟通的技巧.pdf VIP
- 2025国开线下考试答案宪法学》国家开放大学期末考试题库(最新)[笔试+机考+一网一].pdf
- 长沙市五一广场站地铁车站结构设计毕业论文.doc VIP
- 土壤中碱解氮、有效磷、速效钾、有机质、交换钙、镁及有效锌含量测定方法.pdf
- (四篇)2025年“中央八项规定”知识竞赛测试题库详细版 .pdf VIP
- 蔬菜常见病虫害防治课件.pptx VIP
- 化工厂冬季施工的方案.doc VIP
文档评论(0)