- 1
- 0
- 约2.39万字
- 约 35页
- 2026-06-24 发布于江西
- 举报
数据分析师实战手册
第1章数据分析师实战手册
1.1数据清洗与预处理
第一节数据质量评估与缺陷识别
我们需要引入“数据质量评分卡”来量化数据源的健康状况,常用的维度包括完整性(Completeness)、准确性(Accuracy)、一致性(Consistency)和时效性(Timeliness)。以电商订单系统为例,我们选取过去30天的交易数据,计算每个字段的质量得分,其中“订单状态”字段因包含大量“已取消”和“退款中”的模糊记录,质量得分从95分骤降至68分,提示该字段存在严重的逻辑缺陷。接着,利用“异常值分布图(如箱线图)”和“多模态统计检验”来定位具体缺陷。在人口统计学数据中,我们发现“性别”字段存在明显的异常,部分样本被错误标记为“非男”,这并非数据录入错误,而是系统自动的分类标签偏差。通过计算每个类别的频数分布,我们可以识别出该异常值占总样本的0.5%,属于高影响力缺陷。
随后,执行“数据元检查”以发现隐性缺陷,即字段类型不匹配或单位不一致。假设我们有一组来自不同地区的销售额数据,A区单位是百万美元,B区是万元,若直接相加会导致结果完全失真。此时,必须使用“单位标准化转换工具”将B区数据统一转换为百万美元,并检查是否存在因汇率波动导致的数值漂移。然后,运用“相关性矩阵分析”来识别数据间的逻辑冲突。在客户行为分析中,我们发现“率”与“
您可能关注的文档
最近下载
- 2025年丽水学院公共课《思想道德基础与法律修养》科目期末试卷A(有.pdf VIP
- 广东河源市初二地理生物会考考试题库(含答案).docx VIP
- 山东省建筑工程施工技术资料管理规程表格.pdf VIP
- 2025年皮革废弃物资源化十年报告.docx
- 酒店住宿企业数字化转型对企业价值的影响研究--以华住集团为例.pdf VIP
- 四上译林版英语【必背知识点总结】.pdf VIP
- HJ 534-2009 环境空气 氨的测定 次氯酸钠-水杨酸分光光度法(正式版).pdf VIP
- SY_T 5374.2-2023 固井作业规程 第2部分:特殊固井.pdf VIP
- 民法学知识点整理.pdf VIP
- 山东济南天桥区2025-2026学年第二学期七年级数学期末考试试题以及答案.docx VIP
原创力文档

文档评论(0)