- 1、本文档共47页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据预处理要点
主要内容 2.1 为什么要预处理数据 2.2 数据清理 2.3 数据集成 2.4 数据变换 2.5 数据归约 由于现实世界的数据一般是脏的、不完整的和不一致的,且一些错误不可避免。因此必须先进行预处理,改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。 数据预处理的形式 2.2 数据清理 数据清理的任务: 填充缺失的值 光滑噪声并识别离群点 纠正数据中的不一致 回归 2.3 数据集成 数据集成合并多个数据源中的数据,存放在一个一致的数据库(如数据仓库)中。 源数据可能包括多个数据库,数据立方体或一般文件。数据集成将数据转换或统一成适合于挖掘的形式。 属性的相关性分析 规范化 1)最小-最大规范化:将原始数据v经线性变换,映射到区间[new_minA, new_maxA] 例如:income的最大,最小值分别为9000,2000,则将它的值映射到[0,1]时,若income的值6800规范后为: (6800-2000)/(9000-2000)*(1-0)+0=0.686 规范化 2) z-score规范化(零均值规范化):属性A的值基于A的平均值和标准差规范化。 在最大最小值未知适用 2.5 数据归约 Data Reduction 数据归约策略 (1)数据立方体聚集:对数据立方体做聚集操作 (2)维归约:检测并删除不相关、弱相关或冗余的属性和维。 (3)数据压缩: (4)数值归约: 用规模较小的数据表示、替换或估计原始数据 (5)离散化和概念分层产生 属性的原始数值用区间值或较高层的概念替换 注意:用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间 2.5.1 数据立方体聚集 数据立方体存储多维聚集信息,提供对预计算的汇总数据进行快速访问。 如:立方体内存储季度销售额,若对年销售额感兴趣,可对数据执行聚集操作,例如sum()等。 2.5.2 维归约 通过删除不相关或冗余的属性(或维)减小数据集。 其目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。 通常采用压缩搜索空间的启发式算法。 逐步向前选择 逐步向后删除 向前选择和向后删除的结合 决策树归纳 2.5.3 数据压缩 分为无损和有损两种。 主要方法: 小波变换(DWT):有损 主成分分析(PCA):有损 小波变换 输入数据向量D,小波变换会将它转换为另一个向量D’ 虽然两个向量长度相同,但是小波变换后的向量D’可以裁减。用户根据实际需要保留其中一部分数据,从而实现了数据的压缩。 主要成分分析 假设需要压缩的数据是由 N个数据向量组成, 共有k个维度(属性或特征)。主要成分分析则是从这N个向量里找出最能代表数据的c个正交向量。这样,原来的数据就投影到该较小的集合中,导致数据压缩。 2.5.4 数值归约 通过选择替代的、“较小的”数据表示形式来减少数据量。 可以分为参数方法和非参数方法。 参数方法:是利用一个模型,通过计算获得原来的数据, 因此只需要存储模型的参数即可 常用方法:回归(regression )和对数线性模型 非参数方法:不使用模型 常用方法:直方图、聚类、抽样 线性回归模型 线性回归方法是利用一条直线模型对数据进行拟合。例如:利用自变量 X的一个线性函数可以拟合因变量Y的输出, 其线性函数模型为: Y=α+ βX 此时,我们只需要存储X的数据即可,根据这个模型,就可以预测出Y的取值。 聚类 1.首先,将数据划分为群或簇,使得在每一个簇中的对象“类似”,但与其他簇中的对象“不类似”。 2.其次,为这些簇赋值,所有包含在同一个簇中的对象的值相同。 注意:如果数据可以组成各种不同的聚类,则该 技术非常有效,反之如果数据界线模糊,则方法无效。 抽样 用数据的小得多的随机样本(子集)表示大型数据集。 抽样方法 s个样本无放回简单随机抽样(SRSWOR) s个样本有放回简单随机抽样(SRSWR) 聚类抽样 分层抽样 2.5.5 数据离散化和概念分层产生 1.数据离散化将属性(连续取值)域值范围分为若干区间,每个区间对应一个离散值 2.为什么进行离散化? 1)在机器学习和数据挖掘中,很多算法如决策树、关联规则及基于粗糙集理论的许多方法,是用来处理离散型数据的,对于连续型数据却不适用;另外,有些算法即使能处理连续型数据,挖掘和学习也没有处理离散型数据有用和有效。 2)离散化后可以达到归约数据的目的。 概念分层(concept hierarchy) :通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据 数值数据的离散化 典型方法(所有方法均可递归应用)
您可能关注的文档
- 数据库设计参考.ppt
- 数据库选择及使用.pptx
- 数据抽象及三种抽象方法.ppt
- 数据抽取过程.doc
- 数据挖掘 主题:第五章作业.docx
- 数据库课程设计——图书管理系统.docx
- 数据库讲稿.ppt
- 理工类本科毕业论文(设计)格式范文(理工类、修订版).docx
- 数据挖掘原语、语言和系统结构.ppt
- 数据挖掘原语和语言.ppt
- 专题06 经济体制(我国的社会主义市场经济体制)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题11 世界多极化与经济全球化-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 专题03 经济发展与社会进步-5年(2020-2024)高考1年模拟政治真题分类汇编(浙江专用)(解析版).docx
- 专题09 文化传承与文化创新-5年(2020-2024)高考1年模拟政治真题分类汇编(北京专用)(原卷版).docx
- 5年(2020-2024)高考政治真题分类汇编专题08 社会进步(我国的个人收入分配与社会保障)(原卷版).docx
- 专题07 探索世界与把握规律-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 5年(2020-2024)高考政治真题分类汇编专题06 经济体制(我国的社会主义市场经济体制)(原卷版).docx
- 专题11 全面依法治国(治国理政的基本方式、法治中国建设、全面推进依法治国的基本要求)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题17 区域联系与区域协调发展-【好题汇编】十年(2015-2024)高考地理真题分类汇编(解析版).docx
- 专题01 中国特色社会主义-5年(2020-2024)高考1年模拟政治真题分类汇编(原卷版).docx
文档评论(0)