第二章：数据预处理2解读.pptxVIP

下载本文档

38
0
约9.18千字
约 65页
2017-04-07 发布于湖北
举报

第二章：数据预处理2解读.pptx

数据挖掘第二章：数据预处理本章内容 2.0 认识数据 2.1 为什么要预处理数据 2.2 数据清理 2.3 数据集成和变换 2.4 数据归约基本要求：了解数据质量问题及其对挖掘的影响，掌握数据清理、集成和变换、归约等方法 2.0 认识数据洞察数据有助于数据预处理与挖掘数据由什么类型的属性或字段组成属性具有何种类型的属性值属性是离散的还是连续的数据分布特性数据可视化 2.0 认识数据 – 数据对象与属性类型数据对象：数据集由数据对象组成，一个数据对象代表一个实体顾客、商品、患者又称样本、实例、数据点、元组等属性：表示数据对象的一个特征维、特征、变量一个给定对象的一组属性称作属性向量（特征向量）属性的类型由该属性可能具有的值的集合决定 2.0 认识数据 – 数据对象与属性类型枚举类型（nominal attribute）：分类类型属性值域是一个由符号、事物构成的有限集合头发颜色、婚姻状态、职业不具备有意义的序、不是定量的可用众数(mode)度量中心趋势二元属性（binary attribute）：布尔属性只有两个类别与状态：0与1， true与false 对称的：两个状态分布或重要性相同。性别非对称的：两个状态分布或重要性不是相同的。HIV检验。 2.0 认识数据 – 数据对象与属性类型序数类型（ordinal attribute）属性值之间存在有意义的序，相继值之间差是定性的大中小、职位、军衔可通过把数值量的值域划分为有限个有序列性得到序数类型可用众数与中位数表示中心趋势 2.0 认识数据 – 数据对象与属性类型数值属性（numeric attribute）可用整数或实数度量区间标度（interval-scaled）属性：用相同的单位尺度度量。可用众数、中位数、均值表示比例标度（ratio-scaled）属性：可用倍数表示。可用众数、中位数、均值表示 2.0 认识数据 – 数据对象与属性类型离散属性：具有有限个或无限可数个值连续属性：如果属性不是离散的，则它是连续的，用实数表示 2.0 认识数据 – 数据基本统计描述动机：为了更好的理解数据获得数据的总体印象识别数据的典型特征凸显噪声或离群点度量数据的中心趋势均值、中位数、众数（模）度量数据的离散程度四分位数、四分位数极差、方差等 2.0 认识数据 – 数据基本统计描述算术平均值加权算术平均截断均值（trimmed mean）：去掉高、低极端值得到的均值 e.g. 计算平均工资时，可以截掉上下各2％的值后计算均值，以抵消少数极端值的影响中位数：有序集的中间值或者中间两个值平均 2.0 认识数据 – 数据基本统计描述众数（Mode，模）：集合中出现频率最高的值单峰的（unimodal，也叫单模态）、双峰的（bimodal）、三峰的（trimodal）；多峰的（multimodal）对于适度倾斜（非对称的）的单峰频率曲线，可以使用以下经验公式计算众数 2.0 认识数据 – 数据基本统计描述对称与正倾斜、负倾斜数据的中位数、均值和众数 2.0 认识数据 – 数据基本统计描述评估数值数据散布或发散的度量：极差、五数概括（基于四分位数）、中间四分位数极差和标准差极差（range）：数据集的最大值和最小值之差百分位数(percentile)：第k个百分位数是具有如下性质的值x：k%的数据项位于或低于x 中位数就是第50个百分位数四分位数：Q1 (25th percentile), Q3 (75th percentile) 中间四分位数极差(IQR)： IQR = Q3 – Q1 孤立点：通常我们认为：挑出落在至少高于第三个四分位数或低于第一个四分位数 1.5×IQR处的值 2.0 认识数据 – 数据基本统计描述 2.0 认识数据 – 数据基本统计描述 2.0 认识数据 – 数据基本统计描述例子 60th Percentile I = (60/100)*51 =30.6 30.6 不是整数，选择整数31，故数值为 66.1 33th Percentile I =(33/100)*51=16.83 16.83 不是整数，选择整数17，故数值为 63.6 Q1:13th—62.9 ; Q3: 38th—67.2 Q3-Q1=4.3 (62.9-1.5*4.3, 67.2+1.5*4.3)=(56.45,73.65) The OUTLIER is 52.7 Lower Fence = Q1 - 1.5(IQR) Upper Fence =

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第二章：数据预处理2解读.pptxVIP