- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Review_1.ppt
第二章 数据处理及探索 为什么需要数据预处理 在现实社会中,存在着大量的“脏”数据 不完整性(数据结构的设计人员、数据采集设备和数据录入人员) 缺少感兴趣的属性 感兴趣的属性缺少部分属性值 仅仅包含聚合数据,没有详细数据 噪音数据(采集数据的设备、数据录入人员、数据传输) 数据中包含错误的信息 存在着部分偏离期望值的孤立点 不一致性(数据结构的设计人员、数据录入人员) 数据结构的不一致性 Label的不一致性 数据值的不一致性 数据预处理的主要任务 数据清理 填入缺失数据 平滑噪音数据 确认和去除孤立点 解决不一致性 数据集成 多个数据库、Data Cube和文件系统的集成 数据转换 规范化、聚集等 数据归约 在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减 数据离散化 对于一个特定的连续属性,尤其是连续的数字属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数. 规范化 1)最小-最大规范化:将原始数据v经线性变换,映射到区间[new_minA, new_maxA] 例如:income的最大,最小值分别为9000,2000,则将它的值映射到[0,1]时,若income的值6800规范后为: (6800-2000)/(9000-2000)*(1-0)+0=0.686 存在问题: 若存在离群点,可能影响规范化 若在规范化后添加新的数据,当新数据落在原数据的区间[minA, maxA]之外,将导致“越界”错误。 规范化… 2) z-score规范化(零均值规范化):属性A的值基于A的平均值和标准差规范化。 对离群点不敏感 规范化… 2) z-score规范化(零均值规范化):属性A的值基于A的平均值和标准差规范化。 a =[43358 7550 23665 8009 13633 23 47604 59900 32070] zscore(a)=[0.8260 -0.8980 -0.1221 -0.8759 -0.6051 -1.2604 1.0305 1.6225 0.2826] Measures of Location: Mean and Median The mean is the most common measure of the location of a set of points. However, the mean is very sensitive to outliers. Thus, the median or a trimmed mean is also commonly used. 设N个数值排序,若N为奇数,中位数是有序集的中间值;若N为偶数,中位数是中间两个值的平均值。 例如:1,3,5,7 中位数4 1,3,5,6,7 中位数5 分类 VS. 预测 分类: 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据。类标号必须是离散属性 预测: 建立连续函数值模型,比如预测空缺值 典型应用 信誉证实 目标市场 医疗诊断 性能预测 数据分类:两步过程 第一步,建立一个模型,描述预定数据类集和概念集 假定每个元组属于一个预定义的类,由一个类标号属性确定 基本概念 训练数据集:由为建立模型而被分析的数据元组形成 训练样本:训练数据集中的单个样本(元组) 学习模型可以用分类规则、判定树或数学公式的形式提供 数据分类:两步过程 第二步,使用模型,对将来的或未知的对象进行分类 首先评估模型的预测准确率(或错误率) 对每个测试样本,将已知的类标号和该样本的学习模型类预测比较 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比 测试集要独立于训练样本集,否则会出现“过分适应数据”的情况 决策树建立步骤(ID3算法) 试探性地选择一个属性放置在根节点,并对该属性的每个值产生一个分支。 分裂根节点上的数据集,并移到子女节点,产生一棵局部树(partial tree)。 对该划分的质量进行评估。 对其他属性重复该过程。 每个用于划分的属性产生一棵局部树。 根据局部树的质量,选择一棵局部树。 对选定的局部树的每个子女节点重复以上1-6步。 这是一个递归过程。如果一个节点上的所有实例都具有相同的类,则停止局部树的生长。 决策树归纳设计的两个问题 如何分裂记录? 选择属性测试条件 如何停止分裂记录? 求职应注意的礼仪 求职时最礼貌的修饰是淡妆 面试时最关键的神情是郑重 无论站还是坐,不能摇动和抖
文档评论(0)