- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据岗位招聘笔试题与参考答案(某大型央企)2025年
第一部分:基础能力测试(共40分)
1.SQL编程(15分)
某央企下属电商平台数据库包含以下表结构:
-`user_info`(用户信息表):user_id(用户ID,主键)、reg_time(注册时间)、gender(性别)、age(年龄)、city(所在城市);
-`order_info`(订单表):order_id(订单ID,主键)、user_id(用户ID)、order_time(下单时间)、payment(支付金额)、is_refund(是否退款,0=未退款,1=已退款)、category(商品品类);
-`product_info`(商品表):product_id(商品ID,主键)、category(商品品类)、cost_price(成本价)、supplier(供应商)。
要求编写SQL语句,完成以下分析:
(1)计算2024年每个城市的用户注册量,按注册量降序排列(5分);
(2)找出2024年下单金额(支付金额-退款金额)top10的用户,输出user_id、总金额(5分);
(3)统计每个用户的首单时间与末单时间间隔(天),并计算所有用户的平均间隔天数(5分)。
参考答案:
(1)
```sql
SELECTcity,COUNT(user_id)ASreg_count
FROMuser_info
WHEREreg_timeBETWEEN2024-01-01AND2024-12-31
GROUPBYcity
ORDERBYreg_countDESC;
```
(2)
```sql
SELECTo.user_id,SUM(o.payment(1-o.is_refund))AStotal_amount
FROMorder_infoo
WHEREo.order_timeBETWEEN2024-01-01AND2024-12-31
GROUPBYo.user_id
ORDERBYtotal_amountDESC
LIMIT10;
```
(3)
```sql
WITHuser_orderAS(
SELECTuser_id,MIN(order_time)ASfirst_order,MAX(order_time)ASlast_order
FROMorder_info
WHEREorder_timeBETWEEN2024-01-01AND2024-12-31
GROUPBYuser_id
)
SELECTAVG(DATEDIFF(last_order,first_order))ASavg_interval
FROMuser_order;
```
2.Python编程(25分)
给定某央企2024年客户消费数据集`customer_data.csv`(字段:user_id,age,gender,income,consumption,last_purchase_date),要求:
(1)读取数据并进行基础清洗:处理缺失值(age、income缺失率均5%)、异常值(consumption超过均值5倍视为异常)(10分);
(2)绘制2024年各月份消费金额趋势图(横轴为月份,纵轴为总消费金额),并说明图表类型选择的理由(7分);
(3)使用线性回归模型预测用户消费金额(consumption),要求输出特征选择依据、模型训练代码(使用sklearn)及决定系数R2值(8分)。
参考答案:
(1)数据清洗代码:
```python
importpandasaspd
importnumpyasnp
读取数据
df=pd.read_csv(customer_data.csv)
处理缺失值:age、income用均值填充
df[age]=df[age].fillna(df[age].mean())
df[income]=df[income].fillna(df[income].mean())
处理异常值:计算consumption均值和5倍均值,替换异常值为均值
mean_consump=df[consumption].mean()
df[consumption]=np.where(df[consumption]5mean_consump,mean
您可能关注的文档
最近下载
- 2025中级经济师《经济基础知识》三色笔记.pdf VIP
- GB/T 17215.321-2021电测量设备(交流) 特殊要求 第21部分:静止式有功电能表(A级、B级、C级、D级和E级).pdf
- Kollmorgen电机AKD驱动器手册中文版.pdf VIP
- 河南省九师联考2024-2025学年高一上学期11月期中考试地理试卷(含答案).pdf VIP
- 河南省九师联盟2024-2025学年高一上学期期中考试历史试题(含答案).pdf VIP
- 日立电梯MCA13中文注释版电气原理图.pdf
- 财务总监培训战略成本管理-战略成本管理.ppt VIP
- 战略成本管理 .pdf VIP
- 2024-2025学年江苏省无锡市锡山高级中学高一(上)月考物理试卷(10月)(含答案).docx VIP
- 江苏省梅村某中学2022年物理高一年级上册期末达标检测试题含解析.pdf VIP
原创力文档


文档评论(0)