2025年数据分析师专业技能测试题库及答案集.docxVIP

  • 0
  • 0
  • 约5.59千字
  • 约 14页
  • 2026-03-11 发布于四川
  • 举报

2025年数据分析师专业技能测试题库及答案集.docx

2025年数据分析师专业技能测试题库及答案集

一、数据清洗与预处理(共5题)

1.某电商平台用户行为数据集包含以下字段:user_id(用户ID)、event_time(事件时间,格式为2024-11-20T14:30:45.000Z)、event_type(事件类型:view/click/purchase)、product_id(商品ID)、price(商品价格,部分记录为NaN或¥99.9)、category_id(品类ID)。请列出针对该数据集需完成的5项关键清洗步骤,并说明每项步骤的具体处理方法。

答案:

(1)时间格式标准化:使用Pandas的to_datetime函数将event_time字段转换为datetime64[ns]类型,提取时区信息(若统一为UTC则无需额外处理),确保后续时间序列分析的准确性。

(2)缺失值处理:对price字段的NaN缺失值,若缺失比例5%,采用同品类商品价格的中位数填充;若缺失比例30%且为关键分析指标(如客单价计算),则剔除对应记录。

(3)货币符号清洗:针对price字段的¥99.9格式,使用正则表达式替换(如str.replace(r¥,,regex=True))去除货币符号,转换为float类型。

(4)异常值检测与修正:对price字段进行IQR分析(计算Q1=25%分位数,Q3=75%分位数,IQR=Q3-Q1),定义异常值为Q1-1.5IQR或Q3+1.5IQR的记录,结合业务判断(如是否存在奢侈品类目)决定保留或修正(修正为Q3+1.5IQR)。

(5)事件类型校验:检查event_type是否仅包含view/click/purchase,若存在其他值(如add_to_cart),需确认是否为数据采集错误,若是则统一映射为标准类型或标记为异常。

2.某医疗数据集包含患者年龄字段,部分记录显示为0或150,其余为正常数值(18-90)。请设计两种检测该字段异常值的方法,并说明如何处理这些异常值。

答案:

检测方法:

(1)统计检验法:计算年龄字段的均值(μ)和标准差(σ),定义异常值为|x-μ|3σ的记录(3σ原则)。

(2)业务规则法:根据医学常识,设定合理年龄范围(如18-120岁),超出该范围的记录标记为异常。

处理方法:

(1)对于0值:若为新生儿记录(需结合其他字段如is_newborn判断),保留并标注;若无关联字段,视为数据录入错误,剔除或用同科室患者年龄的中位数填充。

(2)对于150值:明显超出人类寿命极限,判定为录入错误,若缺失比例2%则剔除;若需保留,用该字段99%分位数(如95岁)替代。

二、SQL查询(共5题)

3.已知用户订单表orders(order_id,user_id,order_time,total_amount)和用户信息表users(user_id,register_time,city),要求计算2024年Q3每个城市的新用户首单转化率(新用户定义为2024年Q3注册的用户,首单指注册后7天内的第一笔订单)。

答案:

```sql

WITHnew_usersAS(

SELECTuser_id,city

FROMusers

WHEREregister_timeBETWEEN2024-07-01AND2024-09-30

),

first_ordersAS(

SELECT

o.user_id,

MIN(o.order_time)ASfirst_order_time

FROMorderso

JOINnew_usersnuONo.user_id=nu.user_id

WHEREo.order_time=nu.register_time

ANDo.order_time=nu.register_time+INTERVAL7days

GROUPBYo.user_id

)

SELECT

nu.city,

COUNT(DISTINCTfo.user_id)ASconverted_users,

COUNT(DISTINCTnu.user_id)AStotal_new_users,

COUNT(DISTINCTfo.user_id)::FLOAT/COUNT(DISTINCTnu.user_id)ASconversion_rate

FROMnew_usersnu

LEFTJOINfirst_ordersfoONnu.user_id=fo.user_id

GROUPBYnu.city;

```

4.某视频平台用户行为表action(user_id,video_id,

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档