- 0
- 0
- 约1.96万字
- 约 67页
- 2024-04-30 发布于浙江
- 举报
数据预处理
【-)阿里云
课程目标
学习完本课程后,你将能够:
1.掌握什么是数据预处理、预处理的基本方法
2.了解数据常见抽样方法
3.了解什么是数据标准化、归一化及其方法
4.掌握数据质量与数据清洗包含哪些内容
5.了解特征工程的相关知识
【-〕阿里云
1.数据预处理概述
2.数据抽样
3.数据标准化及归一化
4.数据质量与数据清洗5特征工程
2【-〕阿里云
课程目录
数据预处理概述
在工程实践中,我们得到的数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理。
数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而处理不同。
我们通常认为的数据预处理是这样子的:
但它还远不够系统化!~
3【-〕阿里云
A
不一致数据
·数据统一
·更正
无量纲化
·数据归一化·正则化
空缺值
·删除
·补全
●数据统一·更正
·删除·更正
非法值
异常值
重复值
·删除
数据预处理概述
数据预处理还往往包括数据抽样、数据标准化及归一化、数据质量提升与数据清洗等环节与任务。
4【-〕阿里云
数据质量提升与数据清洗
数据标准化及归一化
数据抽样
课程目录
1.数据预处理概述
2.数据抽样
2.1什么是数据抽样
2.2为什么要进行数据抽样
2.3数据抽样的方法和原理
3.数据标准化及归一化
4.数据质量与数据清洗
5.特征工程
5【-〕阿里云
什么是数据抽样
数据抽样,就是针对特定问题,从整体数据中抽取出来一部分有代表性的数据,并把这些数据作为样本数据
的过程。
一系列方法和工具
选出来的有一定代表性的样本数据
6【-〕阿里云
待解决的特定问题
特定问题的全量数据集
数据抽样过程
课程目录
1.数据预处理概述
2.数据抽样
2.1什么是数据抽样
2.2为什么要进行数据抽样
2.3数据抽样的方法和原理
3.数据标准化及归一化
4.数据质量与数据清洗
5.特征工程
7【-〕阿里云
为什么要进行数据抽样
对数据分析而言,在数据采集阶段,往往需要针对研究的问题选择一些的好样本来进行研究,进而通过样本
情况来对整体数据做进一步判断。
在成本与估计精度间寻最佳性价比
比如航天器中精密仪器主轴加工精度的要求与制作香肠
要求的精度不同;
比如对投资股票收益率的估计和对电视节目收视率的估
计精度要求不同。
针对研究的问题
针对调查成本与估计精度
不同问题:样本要求千差万别
如果研究顾客满意度,样本需要来自该产品的用户;
如果研究消费满意度,样本需要取自所有潜在购买者。
好的样本
8【-〕阿里云
课程目录
1.数据预处理概述
2.数据抽样
2.1什么是数据抽样
2.2为什么要进行数据抽样
2.3数据抽样的方法和原理
3.数据标准化及归一化
4.数据质量与数据清洗
5.特征工程
9
您可能关注的文档
- 《智能制造基础与应用》2-4数字化加工与装配.pptx
- “1+X”(中级)02-大数据分析平台.pptx
- “1+X”(高级)02-阿里云大数据体系架构.pptx
- 5-3-1电力大数据价值之一.pptx
- 5-2-1智能楼宇的概念.pptx
- “1+X”(高级)08-数据挖掘分析与业务预测.pptx
- 第六章 数据通信系统-电网监控与调度自动化.pptx
- 智能变电站二次系统变化.pptx
- “1+X”(初级)07-数据仓库.pptx
- 1-大数据在高炉中的应用-大数据在冶金中的应用.pptx
- 专题16 ”热学中气体封闭液柱模型“系统性答题模板与思维建模(全国通用)(解析版)2026年高考物理二轮复习讲练.docx
- 2026年数字经济短视频行业内容创新趋势分析报告.docx
- 专题16 ”热学中气体封闭液柱模型“系统性答题模板与思维建模(全国通用)(原卷版)2026年高考物理二轮复习讲练.docx
- 2026年AI教育市场用户体验与满意度研究.docx
- 2026年AI教育市场用户体验与满意度提升方案.docx
- 专题17 ”热学中活塞气缸模型“系统性答题模板与思维建模(全国通用)(解析版) 2026年高考物理二轮复习讲练.docx
- 2026年AI教育市场用户行为分析及自适应学习系统个性化推荐.docx
- 2026年第三方物流行业商业模式创新报告.docx
- 2026年家政O2O平台运营模式创新及服务质量评估报告.docx
- 专题17 ”热学中活塞气缸模型“系统性答题模板与思维建模(全国通用)(原卷版) 2026年高考物理二轮复习讲练.docx
原创力文档

文档评论(0)