- 18
- 0
- 约1.18千字
- 约 57页
- 2023-09-06 发布于江苏
- 举报
物联网数据处理
第四讲 数据预处理;提纲
为什么对数据进行预处理
描述性数据汇总
数据清理
数据集成和变换
数据归约;数据结构与数据类型;数据类型——列(属性)的类型;只有一种值的“列”
单值列对于区分不同行不包含任何信息,在DM过程中应该忽略他们。
有时,一种值是数据的一个特性(预留,null no 0)
定义一个子集的字段可能包含同样的值
几乎只含一种值的“列”
数据偏态
可以忽略,在忽略某列前,弄清楚这些值之所以有如此严重的偏态分布的原因是重要的。
“拇指规则”:如果某一列中95%-99%值相同,那么这一列很可能没用。
?列的值各不相同
客户姓名;地址;电话号码;ID;运输识别码等
无法产生预测值,但是真正的也包含了大量信息。;数据清理
数据集成
数据库;为什么进行数据预处理;数据为什么会变“脏”?;预处理为什么是重要的?;数据质量的多维度量;数据预处理的主要任务;数据预处理;描述性数据汇总;度量的分类;度量数据的中心趋势;众数(Mode,也叫模):集合中出现频率最高的值
单峰的(unimodal,也叫单模态)、双峰的(bimodal)、三峰的(trimodal)
;多峰的(multimodal)
对于适度倾斜(非对称的)的单峰频率曲线,可以使用以下经验公式计算众数;度量数据的离散度(1);度量数据的离散度(2);盒图——示例;描述数据汇总的图形显示——直方图;分位数图;分位
您可能关注的文档
最近下载
- 最新毛概考试题库及答案(87页).doc VIP
- 湖北省赤壁市2025年上半年事业单位公开遴选试题含答案分析.docx VIP
- 湖北省阳新县2025年上半年事业单位公开遴选试题含答案分析.docx VIP
- 2026年智慧园区182页WORD-企业生产园区综合解决方案(大华)-新版方案.docx VIP
- 2023年智慧园区解决方案-V1.0.pdf VIP
- 《15万吨日供水量的水厂设计中V型滤池设计计算过程案例》2600字.docx
- PASCAL SLA 型滑动台锁紧装置使用说明书.pdf VIP
- 某XXX智慧园区建设解决方案V1.0.pptx VIP
- 煤化工酚氨回收课件.ppt VIP
- 酚氨回收流程.pdf VIP
原创力文档

文档评论(0)