- 135
- 0
- 约小于1千字
- 约 21页
- 2020-10-04 发布于北京
- 举报
《商务数据分析与应用》;;商务数据清洗;缺失数据一般在数据表中表现为空白单元格或错误标识符。;缺失数据一般在数据表中表现为空白单元格或错误标识符。;缺失数据的处理主要有4种方法:;缺失数据的处理主要有4种方法:;1、缺失数据的检测与处理;异常值数据可通过数据的统计特征处理初步识别,一般偏离数据集的平均值较大的即为异常值;如能将数据集可视化,也可以从图表中直观地发现异常值。;绘制箱线图也是检验异常值的常用方法,主要优点是简便、直观。箱线图是由数据的上边缘、上四分位数中位数、下四分位数和下边缘组成的图形,其中上边缘和下边缘线所代表的就是临界值,超过上下边界的离群点则为需要关注的异常值数据。;异常值检测在数据分析过程中有着重要的意义,如能回溯确认数据是人工/机械录入错误则可直接修正为真实值;又如异常值是由于数据本身的变异造成的,那对其进行分析,就可以发现隐藏的更深层次的,潜在有价值的信息。;根据分析目标需要对异常值数据在处理时可采用以下方法:
(1)参考后续的数据分析模型,选择删除或者保留异常值数据。
(2)用一个样本统计量去代替异常值,比如平均值、中位数、众数等。;(3)分箱法,即通过考察相邻数据的取值对异常值进行平滑处理,可视为一种局部平滑方法。当数据中存在异常值时让其分布到一些“箱”中,然后用“箱”中的平均值或中位数来代替异常值。;2、异常值数据的检测与处理;(4)对数据集构建一个合适的回归分析模型,以回归模型的拟合值代替异常值。
(5)将类似的数据聚为一类,在聚类分析中异常值往往单独被聚为一类,这时找出距离异常值最近的一类数据,用这类数据的组内均值代替异常值。;示例;示例;示例;示例;示例;谢谢您的欣赏
您可能关注的文档
- 培训中心 食品检验工 食品检验工(高级)第2章.ppt
- 培训中心 西式面点师 西点来源.ppt
- 培训中心 项目二:企业培训包、培训中心、任务3:CAD制图员培训 化工制图基本知识.ppt
- 培训中心 一带一路双语服务 03_Bond_&_Anchorage.ppt
- 培训中心 一带一路双语服务 06 Axially loaded member.ppt
- 培训中心 一带一路双语服务 单层厂房-3.ppt
- 培训中心 轧钢培训资料 承德建龙轧钢厂高级加热工培训教材.ppt
- 培训中心 织布工 织布工培训8.pptx
- 培训中心 织布工 织布工培训13.pptx
- 培训中心 转炉炼钢培训资料 2.铁水预处理.ppt
最近下载
- 药品处方集_模版.doc VIP
- 2025年大学大二(护理学)外科护理综合实训综合测试题及答案.doc VIP
- 第四章第五节服装流行色(课件)-《服装设计基础》同步教学(高教版.服装设计与工艺专业).pptx VIP
- 故事里的端午节.ppt VIP
- 标准图集-19DX101-1 建筑电气常用数据-下册.pdf VIP
- 2025年新版《小学生规范守则》和《日常行为规范准则》.docx VIP
- 树立和践行正确的政绩观研讨发言材料.docx VIP
- 2025年大学大二(海洋渔业科学与技术)渔业资源评估测试题及答案.doc VIP
- 市政工程预算编制.pptx VIP
- 张爱玲与艾米丽_勃朗特的爱情观及文学观比较_以_倾城之恋_呼啸山庄_为例.pdf VIP
原创力文档

文档评论(0)