数据挖掘概念与技术原书第2版第2章数据预处理1.pptVIP

下载本文档

1
0
约8.56千字
约 63页
2018-04-15 发布于贵州
举报
版权申诉

数据挖掘概念与技术原书第2版第2章数据预处理1.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘概念与技术原书第2版第2章数据预处理1

loess曲线为散布图添加一条平滑的曲线，以便更好的观察两个变量间的依赖模式 Loess (local regression)意指“局部回归”，为了拟合loess曲线，需要两个参数：平滑参数α ，被回归拟合的多项式的阶λ loess曲线为什么对数据进行预处理描述性数据汇总数据清理数据集成和变换数据归约离散化和概念分层生成第二章数据预处理业界对数据清理的认识 “数据清理是数据仓库构建中最重要的问题”—DCI survey 数据清理任务填写空缺的值识别离群点和平滑噪声数据纠正不一致的数据解决数据集成造成的冗余数据清理数据并不总是完整的例如：数据库表中，很多条记录的对应字段没有相应值，比如销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时，有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上空缺值忽略元组：当类标号缺少时通常这么做（假定挖掘任务设计分类或描述），当每个属性缺少值的百分比变化很大时，它的效果非常差。人工填写空缺值：工作量大，可行性低使用一个全局变量填充空缺值：比如使用unknown或-∞ 使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值：使用像Bayesian公式或判定树这样的基于推断的方法如何处理空缺值噪声：一个测量变量中的随机错误或偏差引起不正确属性值的原因数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致其它需要数据清理的数据问题重复记录不完整的数据不一致的数据噪声数据分箱(binning): 首先排序数据，并将他们分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等回归通过让数据适应回归函数来平滑数据聚类：监测并且去除孤立点计算机和人工检查结合计算机检测可疑数据，然后对它们进行人工判断如何处理噪声数据 price的排序后数据（单位：美元）：4，8，15，21，21，24，25，28，34 划分为（等深的）箱：箱1：4，8，15 箱2：21，21，24 箱3：25，28，34 用箱平均值平滑：箱1：9，9，9 箱2：22，22，22 箱3：29，29，29 用箱边界平滑：箱1：4，4，15 箱2：21，21，24 箱3：25，25，34 数据平滑的分箱方法通过聚类分析检测离群点，消除噪声聚类将类似的值聚成簇。直观的，落在簇集合之外的值被视为离群点聚类回归 x y y = x + 1 X1 Y1 Y1’ 第一步：偏差检测使用元数据（e.g. 每个属性的域、数值类型、依赖性、分布等）检查字段过载检查唯一性规则、连续性规则、空值规则使用偏差检查工具数据清理工具：使用简单的领域知识（e.g.邮编、拼写检查）检查并纠正数据中的错误数据审计工具：通过分析数据发现规则和联系及检测违反这些条件的数据来发现偏差数据清理做为一个过程 (1) 第二步：数据变换（纠正偏差）数据迁移工具：允许说明简单的变换 ETL（提取/变换/装入）工具：允许用户通过GUI说明变换偏差检测和数据变换（纠偏）的迭代执行强调交互性的清理方法数据清理做为一个过程 (2) 为什么对数据进行预处理描述性数据汇总数据清理数据集成和变换数据归约离散化和概念分层生成第二章数据预处理数据集成：将多个数据源中的数据整合到一个一致的存储中模式集成：整合不同数据源中的元数据 e.g. A.cust_id = B.customer_no 实体识别问题：匹配来自不同数据源的现实世界的实体 e.g. Bill Clinton = William Clinton 检测并解决数据值的冲突对现实世界中的同一实体，来自不同数据源的属性值可能是不同的可能的原因：不同的数据表示，不同的度量等等数据集成集成多个数据库时，经常会出现冗余数据对象识别：同一属性或对象在不同的数据库中会有不同的字段名可导出数据：一个属性可以由另外一个表导出，如“年薪” 有些冗余可以被相关分析检测到仔细将多个数据源中的数据集成起来，能够减少或避免结果数据中的冗余与不一致性，从而可以提高挖掘的速度和质量。处理数据集成中的冗余数据 Χ2 (chi-square)测试 Χ 2的值越大，意味着两个变量相关的可能性越大期望值和观测值之间相差越大，值也将越大相关性不意味着因果关系 e.g. 我们发现一个地区的医院数和汽车盗窃数相关两者都必然的关联到第三个属性：人口分类（离散）数据的相关性分析数据变换将数据转换或统一成适合挖掘的形式平滑：去除数据中的噪声聚集：汇总，