第二章:数据预处理2介绍.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘 第二章:数据预处理 本章内容 2.0 认识数据 2.1 为什么要预处理数据 2.2 数据清理 2.3 数据集成和变换 2.4 数据归约 基本要求:了解数据质量问题及其对挖掘的影响,掌握数据清理、集成和变换、归约等方法 2.0 认识数据 洞察数据有助于数据预处理与挖掘 数据由什么类型的属性或字段组成 属性具有何种类型的属性值 属性是离散的还是连续的 数据分布特性 数据可视化 2.0 认识数据 – 数据对象与属性类型 数据对象:数据集由数据对象组成,一个数据对象代表一个实体 顾客、商品、患者 又称样本、实例、数据点、元组等 属性:表示数据对象的一个特征 维、特征、变量 一个给定对象的一组属性称作属性向量(特征向量) 属性的类型由该属性可能具有的值的集合决定 2.0 认识数据 – 数据对象与属性类型 枚举类型(nominal attribute):分类类型 属性值域是一个由符号、事物构成的有限集合 头发颜色、婚姻状态、职业 不具备有意义的序、不是定量的 可用众数(mode)度量中心趋势 二元属性(binary attribute):布尔属性 只有两个类别与状态:0与1, true与false 对称的:两个状态分布或重要性相同。性别 非对称的:两个状态分布或重要性不是相同的。HIV检验。 2.0 认识数据 – 数据对象与属性类型 序数类型(ordinal attribute) 属性值之间存在有意义的序,相继值之间差是定性的 大中小、职位、军衔 可通过把数值量的值域划分为有限个有序列性得到序数类型 可用众数与中位数表示中心趋势 2.0 认识数据 – 数据对象与属性类型 数值属性(numeric attribute) 可用整数或实数度量 区间标度(interval-scaled)属性:用相同的单位尺度度量。 可用众数、中位数、均值表示 比例标度(ratio-scaled)属性:可用倍数表示。 可用众数、中位数、均值表示 2.0 认识数据 – 数据对象与属性类型 离散属性:具有有限个或无限可数个值 连续属性:如果属性不是离散的,则它是连续的,用实数表示 2.0 认识数据 – 数据基本统计描述 动机:为了更好的理解数据 获得数据的总体印象 识别数据的典型特征 凸显噪声或离群点 度量数据的中心趋势 均值、中位数、众数(模) 度量数据的离散程度 四分位数、四分位数极差、方差等 2.0 认识数据 – 数据基本统计描述 算术平均值 加权算术平均 截断均值(trimmed mean):去掉高、低极端值得到的均值 e.g. 计算平均工资时,可以截掉上下各2%的值后计算均值,以抵消少数极端值的影响 中位数:有序集的中间值或者中间两个值平均 整体度量;但是可以通过插值法计算近似值 当观测数据数量很大,中位数计算开销很大 2.0 认识数据 – 数据基本统计描述 众数(Mode,模):集合中出现频率最高的值 单峰的(unimodal,也叫单模态)、双峰的(bimodal)、三峰的(trimodal);多峰的(multimodal) 对于适度倾斜(非对称的)的单峰频率曲线,可以使用以下经验公式计算众数 2.0 认识数据 – 数据基本统计描述 对称与正倾斜、负倾斜数据的中位数、均值和众数 2.0 认识数据 – 数据基本统计描述 评估数值数据散布或发散的度量:极差、五数概括(基于四分位数)、中间四分位数极差和标准差 极差(range):数据集的最大值和最小值之差 百分位数(percentile):第k个百分位数是具有如下性质的值x:k%的数据项位于或低于x 中位数就是第50个百分位数 四分位数:Q1 (25th percentile), Q3 (75th percentile) 中间四分位数极差(IQR): IQR = Q3 – Q1 孤立点:通常我们认为:挑出落在至少高于第三个四分位数或低于第一个四分位数 1.5×IQR处的值 2.0 认识数据 – 数据基本统计描述 2.0 认识数据 – 数据基本统计描述 2.0 认识数据 – 数据基本统计描述 例子 60th Percentile I = (60/100)*51 =30.6 30.6 不是整数,选择整数31,故数值为 66.1 33th Percentile I =(33/100)*51=16.83 16.83 不是整数,选择整数17,故数值为 63.6 Q1:13th—62.9 ; Q3: 38th—67.2 Q3-Q1=4.3 (62.9-1.5*4.3, 67.2+1.5*4.3)=(56.45,73.65) The OUTLIER is 52.7 L

文档评论(0)

123****6648 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档