数据岗位招聘笔试题与参考答案(某大型央企)2025年.docxVIP

数据岗位招聘笔试题与参考答案(某大型央企)2025年.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据岗位招聘笔试题与参考答案(某大型央企)2025年

第一部分:基础能力测试(共40分)

1.SQL编程(15分)

某央企下属电商平台数据库包含以下表结构:

-`user_info`(用户信息表):user_id(用户ID,主键)、reg_time(注册时间)、gender(性别)、age(年龄)、city(所在城市);

-`order_info`(订单表):order_id(订单ID,主键)、user_id(用户ID)、order_time(下单时间)、payment(支付金额)、is_refund(是否退款,0=未退款,1=已退款)、category(商品品类);

-`product_info`(商品表):product_id(商品ID,主键)、category(商品品类)、cost_price(成本价)、supplier(供应商)。

要求编写SQL语句,完成以下分析:

(1)计算2024年每个城市的用户注册量,按注册量降序排列(5分);

(2)找出2024年下单金额(支付金额-退款金额)top10的用户,输出user_id、总金额(5分);

(3)统计每个用户的首单时间与末单时间间隔(天),并计算所有用户的平均间隔天数(5分)。

参考答案:

(1)

```sql

SELECTcity,COUNT(user_id)ASreg_count

FROMuser_info

WHEREreg_timeBETWEEN2024-01-01AND2024-12-31

GROUPBYcity

ORDERBYreg_countDESC;

```

(2)

```sql

SELECTo.user_id,SUM(o.payment(1-o.is_refund))AStotal_amount

FROMorder_infoo

WHEREo.order_timeBETWEEN2024-01-01AND2024-12-31

GROUPBYo.user_id

ORDERBYtotal_amountDESC

LIMIT10;

```

(3)

```sql

WITHuser_orderAS(

SELECTuser_id,MIN(order_time)ASfirst_order,MAX(order_time)ASlast_order

FROMorder_info

WHEREorder_timeBETWEEN2024-01-01AND2024-12-31

GROUPBYuser_id

)

SELECTAVG(DATEDIFF(last_order,first_order))ASavg_interval

FROMuser_order;

```

2.Python编程(25分)

给定某央企2024年客户消费数据集`customer_data.csv`(字段:user_id,age,gender,income,consumption,last_purchase_date),要求:

(1)读取数据并进行基础清洗:处理缺失值(age、income缺失率均5%)、异常值(consumption超过均值5倍视为异常)(10分);

(2)绘制2024年各月份消费金额趋势图(横轴为月份,纵轴为总消费金额),并说明图表类型选择的理由(7分);

(3)使用线性回归模型预测用户消费金额(consumption),要求输出特征选择依据、模型训练代码(使用sklearn)及决定系数R2值(8分)。

参考答案:

(1)数据清洗代码:

```python

importpandasaspd

importnumpyasnp

读取数据

df=pd.read_csv(customer_data.csv)

处理缺失值:age、income用均值填充

df[age]=df[age].fillna(df[age].mean())

df[income]=df[income].fillna(df[income].mean())

处理异常值:计算consumption均值和5倍均值,替换异常值为均值

mean_consump=df[consumption].mean()

df[consumption]=np.where(df[consumption]5mean_consump,mean

文档评论(0)

伍四姐 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档