Excel数据清洗与挖掘高级专业培训.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第一章数据清洗与挖掘的挑战与机遇第二章数据清洗实战:Excel工具高级应用第三章数据预处理技术:从杂乱到规范第四章异常值检测与处理:识别与应对第五章数据转换与特征工程:创造新价值第六章数据清洗与挖掘项目实战:全流程解析

01第一章数据清洗与挖掘的挑战与机遇

数据清洗的痛点与商业价值数据质量现状分析数据清洗带来的商业价值数据清洗在反欺诈中的应用某电商公司销售数据清洗案例麦肯锡报告数据银行客户行为数据分析

数据清洗全流程框架数据探查阶段统计传感器记录中的异常数据比例缺失值处理阶段KNN填充法应用重复值识别阶段设备ID唯一性约束异常检测阶段3σ原则识别异常值

常用数据清洗技术详解地址标准化ArcGIS地址解析API应用性别统一机器学习性别预测模型手机号格式化正则表达式标准化异常值检测药品剂量单位不统一问题

数据挖掘在清洗中的应用关联规则挖掘分析糖尿病患者的记录模式聚类分析患者档案自动分组分类预测缺失值类型预测模型异常检测识别伪造的用药记录

02第二章数据清洗实战:Excel工具高级应用

Excel数据预览与质量诊断数据透视表应用条件格式可视化自定义函数开发统计异常时长占比突出显示金额异常区间手机号格式校验脚本

批量数据清洗工作流设计标准化模板创建PowerQuery表头映射关系条件清洗规则删除重复记录的设置智能填充操作省市简称标准化验证机制设计VBA自动生成清洗日志

Excel高级清洗函数组合应用地址解析函数数值转换函数异常值标记函数用正则表达式匹配地址组件将货币单位统一为元用颜色标记异常数据

清洗数据的质量验证与监控双校验机制自动测试与人工验证结合抽样检测流程业务部门盲测准确性自动化监控体系PowerPivot实时追踪指标反馈闭环机制问题追踪表管理

03第三章数据预处理技术:从杂乱到规范

数据格式统一化的挑战场景日期格式多样化时间格式不统一单位不规范的计量数据展示8种不同表达方式12小时制与24小时制的混用重量单位kg/g的混用

日期时间标准化策略格式识别阶段转换规则设计时间处理阶段用正则表达式匹配日期组件创建映射表统一格式将时间统一为UNIX时间戳

数值型数据清洗技巧单位转换技巧数值修正方法小数处理技巧将货币单位统一为元修正异常的金额数据保留两位小数并添加单位

文本数据清洗高级技巧去噪操作移除HTML标签和特殊字符分词技术自定义词典分词标准化处理同义词替换维度提取方法提取结构化信息

04第四章异常值检测与处理:识别与应对

异常值检测的商业场景信用卡交易异常药品采购异常设备运行异常单笔大额交易检测异常用药量检测异常延误时间检测

异常值检测方法详解统计方法应用均值±3σ原则基于距离的方法DBSCAN算法基于密度的方法LOF算法基于模型的方法孤立森林算法

异常值处理策略设计标记阶段用颜色标记可疑订单验证阶段触发短信验证码二次确认分类阶段用机器学习模型预测异常概率人工复核阶段客服人工判断订单状态归因阶段将处理结果反馈到数据字典

自动化异常检测系统搭建数据采集模块用OPCUA协议获取数据检测引擎模块部署多种异常检测算法告警触发模块设置置信度阈值可视化模块用PowerBI展示异常热力图自学习模块用最新数据更新模型参数

05第五章数据转换与特征工程:创造新价值

数据转换的必要性与场景信用评分场景将多维度数据转换为评分用户画像场景将行为数据转化为LTV指数风险度量场景将交易流水转化为风险系数供应链优化场景将供应商数据转化为评分

数据类型转换与特征构造标准化处理对数转换交叉特征构造用Min-Max标准化数值数据处理偏态分布数据创建新的组合特征

高级特征工程方法多项式特征创建新的非线性特征多项式变换平滑数据分布嵌入特征学习商品关联向量递归特征消除用Lasso筛选重要特征

特征工程效果评估离线评估用AUC、KS值评估模型性能在线A/B测试对比新旧特征组的转化率差异稳定性测试检测特征分布漂移情况业务指标衡量特征对业务的影响

06第六章数据清洗与挖掘项目实战:全流程解析

项目启动与需求分析业务痛点分析某医疗集团病历数据清洗案例数据现状评估DICOM文件格式不统一质量目标设定标注一致性95%,完整率98%范围界定优先处理脑部CT影像

数据采集与探查方案设备对接方案用OPCUA协议批量获取数据探查工具应用用PowerQueryPowerBI联合分析数据清单创建包含设备型号、采集频率、字段含义完整性评估用SQL查询统计各传感器数据覆盖率

清洗流程设计与管理断点修复用Python脚本修正设备全称规则引擎设计用AzureLogicApps定义自动清洗规则版本控制用Git管理清洗脚本变更历史异常处理创建清洗失败工单流转机制

数据质量评估与持续监控KPI体系构建定义7大维度18项指标自动化测试用Selenium脚本执行测试用

文档评论(0)

swj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档