“1+X”(中级)04-数据预处理.pptxVIP

  • 0
  • 0
  • 约1.96万字
  • 约 67页
  • 2024-04-30 发布于浙江
  • 举报

数据预处理

【-)阿里云

课程目标

学习完本课程后,你将能够:

1.掌握什么是数据预处理、预处理的基本方法

2.了解数据常见抽样方法

3.了解什么是数据标准化、归一化及其方法

4.掌握数据质量与数据清洗包含哪些内容

5.了解特征工程的相关知识

【-〕阿里云

1.数据预处理概述

2.数据抽样

3.数据标准化及归一化

4.数据质量与数据清洗5特征工程

2【-〕阿里云

课程目录

数据预处理概述

在工程实践中,我们得到的数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理。

数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而处理不同。

我们通常认为的数据预处理是这样子的:

但它还远不够系统化!~

3【-〕阿里云

A

不一致数据

·数据统一

·更正

无量纲化

·数据归一化·正则化

空缺值

·删除

·补全

●数据统一·更正

·删除·更正

非法值

异常值

重复值

·删除

数据预处理概述

数据预处理还往往包括数据抽样、数据标准化及归一化、数据质量提升与数据清洗等环节与任务。

4【-〕阿里云

数据质量提升与数据清洗

数据标准化及归一化

数据抽样

课程目录

1.数据预处理概述

2.数据抽样

2.1什么是数据抽样

2.2为什么要进行数据抽样

2.3数据抽样的方法和原理

3.数据标准化及归一化

4.数据质量与数据清洗

5.特征工程

5【-〕阿里云

什么是数据抽样

数据抽样,就是针对特定问题,从整体数据中抽取出来一部分有代表性的数据,并把这些数据作为样本数据

的过程。

一系列方法和工具

选出来的有一定代表性的样本数据

6【-〕阿里云

待解决的特定问题

特定问题的全量数据集

数据抽样过程

课程目录

1.数据预处理概述

2.数据抽样

2.1什么是数据抽样

2.2为什么要进行数据抽样

2.3数据抽样的方法和原理

3.数据标准化及归一化

4.数据质量与数据清洗

5.特征工程

7【-〕阿里云

为什么要进行数据抽样

对数据分析而言,在数据采集阶段,往往需要针对研究的问题选择一些的好样本来进行研究,进而通过样本

情况来对整体数据做进一步判断。

在成本与估计精度间寻最佳性价比

比如航天器中精密仪器主轴加工精度的要求与制作香肠

要求的精度不同;

比如对投资股票收益率的估计和对电视节目收视率的估

计精度要求不同。

针对研究的问题

针对调查成本与估计精度

不同问题:样本要求千差万别

如果研究顾客满意度,样本需要来自该产品的用户;

如果研究消费满意度,样本需要取自所有潜在购买者。

好的样本

8【-〕阿里云

课程目录

1.数据预处理概述

2.数据抽样

2.1什么是数据抽样

2.2为什么要进行数据抽样

2.3数据抽样的方法和原理

3.数据标准化及归一化

4.数据质量与数据清洗

5.特征工程

9

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档