数据清理(最新整理版).pptxVIP

  • 18
  • 0
  • 约1.18千字
  • 约 57页
  • 2023-09-06 发布于江苏
  • 举报
物联网数据处理 第四讲 数据预处理;提纲 为什么对数据进行预处理 描述性数据汇总 数据清理 数据集成和变换 数据归约;数据结构与数据类型;数据类型——列(属性)的类型;只有一种值的“列” 单值列对于区分不同行不包含任何信息,在DM过程中应该忽略他们。 有时,一种值是数据的一个特性(预留,null no 0) 定义一个子集的字段可能包含同样的值 几乎只含一种值的“列” 数据偏态 可以忽略,在忽略某列前,弄清楚这些值之所以有如此严重的偏态分布的原因是重要的。 “拇指规则”:如果某一列中95%-99%值相同,那么这一列很可能没用。 ?列的值各不相同 客户姓名;地址;电话号码;ID;运输识别码等 无法产生预测值,但是真正的也包含了大量信息。;数据清理 数据集成 数据库;为什么进行数据预处理;数据为什么会变“脏”?;预处理为什么是重要的?;数据质量的多维度量;数据预处理的主要任务;数据预处理;描述性数据汇总;度量的分类;度量数据的中心趋势;众数(Mode,也叫模):集合中出现频率最高的值 单峰的(unimodal,也叫单模态)、双峰的(bimodal)、三峰的(trimodal) ;多峰的(multimodal) 对于适度倾斜(非对称的)的单峰频率曲线,可以使用以下经验公式计算众数;度量数据的离散度(1);度量数据的离散度(2);盒图——示例;描述数据汇总的图形显示——直方图;分位数图;分位

文档评论(0)

1亿VIP精品文档

相关文档