数据清洗和数据预处理 ;教学目标;教学要求;为什么要预处理数据?;原始数据中存在的问题; 数据预处理的方法;数据清洗;数据清洗——处理空缺值;数据清洗——处理空缺值;数据清洗——噪声数据的处理;噪声数据的处理——分箱;噪声数据的处理——分箱;噪声数据的处理——分箱;噪声数据的处理——分箱;噪声数据的处理——分箱;熵——信息的度量(利用概率来度量);熵——信息的度量; 例子
硬币下落:硬币下落可能有正反两种状态,出现这两种状态的概率都是1/2。
如果需要消除其不确定性,则就需要信息量:H(x)=-[P(X1)log2P(X1)+P(X2)log2P(X2)] =-(-0.5-0.5) =1比特为1比特的信息。
例2:张三到4000人的企业去找李四。当企业人事部门告诉张三:“李四是第四车间的”,而第四车间有1000人,如果第四车间的人告诉张三,李四在第三班,第三班共有125位员工,计算张三所获得的信息量?;噪声数据的处理——分箱;噪声数据的处理——平滑处理;噪声数据的处理——聚类;噪声数据的处理——聚类;噪声数据的处理——回归;噪声数据的处理——回归;数据集成;数据集成——模式匹配;数据集成——数据冗余;数据集成——数据值冲突;数据变换——平滑;数据变换——聚集;数据变换——数据概化;数据变换——规范化;最小-最大规范化;最小-最大规范化;零-均值规范化(z-s
您可能关注的文档
最近下载
- [找邮箱方法.doc VIP
- 植入式静脉给药装置(输液港)护理技术考核试题.doc VIP
- 2025年山东省济南市外国语学校小升初考试语文试卷.docx VIP
- 2026年电商达人LV1LV2LV3LV4等级提升试卷试题及答案.docx
- J B-T 8896-1999工业机器人 验收规则.pdf VIP
- 审计学(西南财经大学)中国大学MOOC 慕课 期末考试答案.pdf VIP
- 2025年陕西汉中职业技术学院及附属医院招聘考试试卷真题 .pdf VIP
- 【交通运输类】浙江省汽车维修行业工时定额和收费标准浙江省交通厅浙江省物价局精编.pdf VIP
- 新人教版七年级语文下册期中水平测试题.doc VIP
- 人教版七年级英语下册期中测试题.doc VIP
原创力文档

文档评论(0)