- 2
- 0
- 约5.64千字
- 约 7页
- 2026-04-17 发布于河北
- 举报
数据分析笔试题及答案(含详细解析)
一、基础概念题(每题5分,共20分)
1.请解释什么是数据清洗,数据清洗中常见的问题有哪些?
参考答案:数据清洗是对原始数据进行检测、识别并处理错误、缺失、异常、重复等问题,使数据达到准确、完整、一致的状态,为后续分析建模提供可靠数据的过程。
详细解析:数据清洗是数据分析的前提,原始数据往往存在各种问题,不清洗会导致分析结果失真。常见问题主要有4类:
(1)缺失值:数据中某些字段的值为空(如用户年龄未填写、订单金额缺失);
(2)重复值:同一数据被多次录入(如同一用户重复注册、订单重复提交);
(3)异常值:偏离正常范围的数据(如用户年龄为150岁、商品单价为负数);
(4)数据不一致:同一字段格式/含义不统一(如日期格式既有“2026-04-14”也有“2026/04/14”,性别字段既有“男”也有“1”)。
2.什么是描述性统计?请列举3个常用的描述性统计指标,并说明其含义。
参考答案:描述性统计是通过图表或数值指标,对数据的分布特征、集中趋势、离散程度进行概括和描述的统计方法,不涉及推断总体。
常用指标及含义:
(1)均值(平均值):所有数据的总和除以数据个数,反映数据的集中趋势(如班级学生的平均成绩);
(2)中位数:将数据按从小到大排序后,位于中间位置的数值(数据个数为偶数时取中间两个数的均值),不受极端值影响(如居民收入中位数,
原创力文档

文档评论(0)