- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘
第二章:数据预处理
本章内容
2.0 认识数据
2.1 为什么要预处理数据
2.2 数据清理
2.3 数据集成和变换
2.4 数据归约
基本要求:了解数据质量问题及其对挖掘的影响,掌握数据清理、集成和变换、归约等方法
2.0 认识数据
洞察数据有助于数据预处理与挖掘
数据由什么类型的属性或字段组成
属性具有何种类型的属性值
属性是离散的还是连续的
数据分布特性
数据可视化
2.0 认识数据 – 数据对象与属性类型
数据对象:数据集由数据对象组成,一个数据对象代表一个实体
顾客、商品、患者
又称样本、实例、数据点、元组等
属性:表示数据对象的一个特征
维、特征、变量
一个给定对象的一组属性称作属性向量(特征向量)
属性的类型由该属性可能具有的值的集合决定
2.0 认识数据 – 数据对象与属性类型
枚举类型(nominal attribute):分类类型
属性值域是一个由符号、事物构成的有限集合
头发颜色、婚姻状态、职业
不具备有意义的序、不是定量的
可用众数(mode)度量中心趋势
二元属性(binary attribute):布尔属性
只有两个类别与状态:0与1, true与false
对称的:两个状态分布或重要性相同。性别
非对称的:两个状态分布或重要性不是相同的。HIV检验。
2.0 认识数据 – 数据对象与属性类型
序数类型(ordinal attribute)
属性值之间存在有意义的序,相继值之间差是定性的
大中小、职位、军衔
可通过把数值量的值域划分为有限个有序列性得到序数类型
可用众数与中位数表示中心趋势
2.0 认识数据 – 数据对象与属性类型
数值属性(numeric attribute)
可用整数或实数度量
区间标度(interval-scaled)属性:用相同的单位尺度度量。
可用众数、中位数、均值表示
比例标度(ratio-scaled)属性:可用倍数表示。
可用众数、中位数、均值表示
2.0 认识数据 – 数据对象与属性类型
离散属性:具有有限个或无限可数个值
连续属性:如果属性不是离散的,则它是连续的,用实数表示
2.0 认识数据 – 数据基本统计描述
动机:为了更好的理解数据
获得数据的总体印象
识别数据的典型特征
凸显噪声或离群点
度量数据的中心趋势
均值、中位数、众数(模)
度量数据的离散程度
四分位数、四分位数极差、方差等
2.0 认识数据 – 数据基本统计描述
算术平均值
加权算术平均
截断均值(trimmed mean):去掉高、低极端值得到的均值
e.g. 计算平均工资时,可以截掉上下各2%的值后计算均值,以抵消少数极端值的影响
中位数:有序集的中间值或者中间两个值平均
整体度量;但是可以通过插值法计算近似值
当观测数据数量很大,中位数计算开销很大
2.0 认识数据 – 数据基本统计描述
众数(Mode,模):集合中出现频率最高的值
单峰的(unimodal,也叫单模态)、双峰的(bimodal)、三峰的(trimodal);多峰的(multimodal)
对于适度倾斜(非对称的)的单峰频率曲线,可以使用以下经验公式计算众数
2.0 认识数据 – 数据基本统计描述
对称与正倾斜、负倾斜数据的中位数、均值和众数
2.0 认识数据 – 数据基本统计描述
评估数值数据散布或发散的度量:极差、五数概括(基于四分位数)、中间四分位数极差和标准差
极差(range):数据集的最大值和最小值之差
百分位数(percentile):第k个百分位数是具有如下性质的值x:k%的数据项位于或低于x
中位数就是第50个百分位数
四分位数:Q1 (25th percentile), Q3 (75th percentile)
中间四分位数极差(IQR): IQR = Q3 – Q1
孤立点:通常我们认为:挑出落在至少高于第三个四分位数或低于第一个四分位数 1.5×IQR处的值
2.0 认识数据 – 数据基本统计描述
2.0 认识数据 – 数据基本统计描述
2.0 认识数据 – 数据基本统计描述
例子
60th Percentile
I = (60/100)*51 =30.6
30.6 不是整数,选择整数31,故数值为 66.1
33th Percentile
I =(33/100)*51=16.83
16.83 不是整数,选择整数17,故数值为 63.6
Q1:13th—62.9 ;
Q3: 38th—67.2
Q3-Q1=4.3
(62.9-1.5*4.3, 67.2+1.5*4.3)=(56.45,73.65)
The OUTLIER is 52.7
L
您可能关注的文档
- 《一元二次方程》复习课件1课程.ppt
- 《原电池》课件新人教版选修4课程.ppt
- 《张衡传》上课用课程.ppt
- 第08章原子吸收光谱法介绍.ppt
- 《走进化学世界》优教复习课件课程.ppt
- 【2015社工师培训中级综合能力】第一章社会工作(中级)课程.ppt
- 第8章TGDTGDTADSC介绍.ppt
- 【步步高】2015届高考化学二轮复习(广东专用)专题突破课件:专题一物质的组成、分类及变化课程.ppt
- 【步步高】2016版高考物理(全国通用)第2部分专题1应考策略方法五、电场课程.pptx
- 【测控设计】2015-2016学年高一化学人教版必修一课件:3.1.3物质的量在化学方程式计算中的应用课程.pptx
文档评论(0)