第二章:数据预处理2解读.pptxVIP

  • 38
  • 0
  • 约9.18千字
  • 约 65页
  • 2017-04-07 发布于湖北
  • 举报
数据挖掘 第二章:数据预处理 本章内容 2.0 认识数据 2.1 为什么要预处理数据 2.2 数据清理 2.3 数据集成和变换 2.4 数据归约 基本要求:了解数据质量问题及其对挖掘的影响,掌握数据清理、集成和变换、归约等方法 2.0 认识数据 洞察数据有助于数据预处理与挖掘 数据由什么类型的属性或字段组成 属性具有何种类型的属性值 属性是离散的还是连续的 数据分布特性 数据可视化 2.0 认识数据 – 数据对象与属性类型 数据对象:数据集由数据对象组成,一个数据对象代表一个实体 顾客、商品、患者 又称样本、实例、数据点、元组等 属性:表示数据对象的一个特征 维、特征、变量 一个给定对象的一组属性称作属性向量(特征向量) 属性的类型由该属性可能具有的值的集合决定 2.0 认识数据 – 数据对象与属性类型 枚举类型(nominal attribute):分类类型 属性值域是一个由符号、事物构成的有限集合 头发颜色、婚姻状态、职业 不具备有意义的序、不是定量的 可用众数(mode)度量中心趋势 二元属性(binary attribute):布尔属性 只有两个类别与状态:0与1, true与false 对称的:两个状态分布或重要性相同。性别 非对称的:两个状态分布或重要性不是相同的。HIV检验。 2.0 认识数据 – 数据对象与属性类型 序数类型(ordinal attribute) 属性值之间存在有意义的序,相继值之间差是定性的 大中小、职位、军衔 可通过把数值量的值域划分为有限个有序列性得到序数类型 可用众数与中位数表示中心趋势 2.0 认识数据 – 数据对象与属性类型 数值属性(numeric attribute) 可用整数或实数度量 区间标度(interval-scaled)属性:用相同的单位尺度度量。 可用众数、中位数、均值表示 比例标度(ratio-scaled)属性:可用倍数表示。 可用众数、中位数、均值表示 2.0 认识数据 – 数据对象与属性类型 离散属性:具有有限个或无限可数个值 连续属性:如果属性不是离散的,则它是连续的,用实数表示 2.0 认识数据 – 数据基本统计描述 动机:为了更好的理解数据 获得数据的总体印象 识别数据的典型特征 凸显噪声或离群点 度量数据的中心趋势 均值、中位数、众数(模) 度量数据的离散程度 四分位数、四分位数极差、方差等 2.0 认识数据 – 数据基本统计描述 算术平均值 加权算术平均 截断均值(trimmed mean):去掉高、低极端值得到的均值 e.g. 计算平均工资时,可以截掉上下各2%的值后计算均值,以抵消少数极端值的影响 中位数:有序集的中间值或者中间两个值平均 2.0 认识数据 – 数据基本统计描述 众数(Mode,模):集合中出现频率最高的值 单峰的(unimodal,也叫单模态)、双峰的(bimodal)、三峰的(trimodal);多峰的(multimodal) 对于适度倾斜(非对称的)的单峰频率曲线,可以使用以下经验公式计算众数 2.0 认识数据 – 数据基本统计描述 对称与正倾斜、负倾斜数据的中位数、均值和众数 2.0 认识数据 – 数据基本统计描述 评估数值数据散布或发散的度量:极差、五数概括(基于四分位数)、中间四分位数极差和标准差 极差(range):数据集的最大值和最小值之差 百分位数(percentile):第k个百分位数是具有如下性质的值x:k%的数据项位于或低于x 中位数就是第50个百分位数 四分位数:Q1 (25th percentile), Q3 (75th percentile) 中间四分位数极差(IQR): IQR = Q3 – Q1 孤立点:通常我们认为:挑出落在至少高于第三个四分位数或低于第一个四分位数 1.5×IQR处的值 2.0 认识数据 – 数据基本统计描述 2.0 认识数据 – 数据基本统计描述 2.0 认识数据 – 数据基本统计描述 例子 60th Percentile I = (60/100)*51 =30.6 30.6 不是整数,选择整数31,故数值为 66.1 33th Percentile I =(33/100)*51=16.83 16.83 不是整数,选择整数17,故数值为 63.6 Q1:13th—62.9 ; Q3: 38th—67.2 Q3-Q1=4.3 (62.9-1.5*4.3, 67.2+1.5*4.3)=(56.45,73.65) The OUTLIER is 52.7 Lower Fence = Q1 - 1.5(IQR) Upper Fence =

文档评论(0)

1亿VIP精品文档

相关文档