2026年数据分析与决策知识考察试题及答案解析.docxVIP

下载本文档

0
0
约8.77千字
约 19页
2026-03-14 发布于四川
举报

2026年数据分析与决策知识考察试题及答案解析.docx

2026年数据分析与决策知识考察试题及答案解析

一、单项选择题（每题2分，共20分）

1.某电商平台在“618”大促期间对10万名用户进行A/B测试，实验组采用新版推荐算法，对照组沿用旧版。若实验组转化率提升1.2个百分点，p值=0.018，下列说法最严谨的是

A.新版算法显著优于旧版，可立即全量上线

B.在α=0.05水平下拒绝原假设，但需结合效应量与成本再决策

C.由于样本量巨大，1.2个百分点提升一定具有业务价值

D.p值0.05说明差异由抽样误差导致概率为1.8%

答案：B

解析：p值仅说明“若原假设成立，观察到当前或更极端结果的概率”，不直接衡量业务价值。大样本下微小差异也可能统计显著，必须结合置信区间、效应量（如提升的GMV绝对值）与上线成本综合判断。A忽略成本；C把统计显著混同于业务显著；D把p值误解为“原假设概率”。

2.某市地铁闸机数据包含2025年4月共30天、每日24小时、276个站点的进出站记录，数据量级约120亿条。现需计算任意两站间OD（OriginDestination）矩阵，工程师拟采用SparkSQL实现。下列方案中，对资源消耗最小且结果准确的是

A.selectorigin_id,dest_id,count()fromtripgroupbyorigin_id,dest_id

B.先按天分区，再对每天数据执行A，最后union结果

C.将数据按origin_id,dest_id两列重分区为1000桶，再执行A

D.先对trip表按origin_id,dest_id建立布隆过滤索引，再执行A

答案：C

解析：OD矩阵需全局聚合，A会导致单阶段shuffle120亿行，极易OOM；B虽减少单日数据量，但union仍需二次聚合，未解决根本问题；D布隆索引只能过滤不存在OD，对聚合无帮助；C通过salting将相同OD哈希到同一桶，局部聚合后二次汇总，显著降低shuffle量，且结果精确。

3.在贝叶斯线性回归中，若先验为θ~N(0,λ?1I)，似然为y~N(Xθ,σ2I)，则后验众数（MAP）估计等价于频率派哪种正则化？

A.Lasso

B.Ridge

C.ElasticNet

D.无正则化

答案：B

解析：取对数后验并求导，MAP目标函数为最小化‖yXθ‖2+λσ2‖θ‖2，即Ridge回归。Lasso对应Laplace先验；ElasticNet为混合先验。

4.某零售公司用XGBoost预测商品销量，特征包含“去年同期销量”。模型上线后预测值普遍偏高，最可能的原因是

A.学习率过大

B.未做特征标准化

C.数据泄露

D.损失函数选成reg:logistic

答案：C

解析：“去年同期销量”在预测时刻实际不可得，若训练集里该特征被误用为未来信息，则模型学到未来泄漏信号，上线后缺失该信息导致偏差。A、B与偏高无直接因果；D应为reg:squarederror。

5.时间序列模型SARIMA(1,1,1)(1,0,1)??的阶数总和为

A.4

B.5

C.6

D.7

答案：C

解析：非季节部分AR1+MA1=2，季节部分SAR1+SMA1=2，差分阶数d=1，季节差分D=0，总阶数=2+2+1+0=5？错。题目问“阶数总和”通常指(p+q+P+Q)=1+1+1+1=4，但含差分后参数空间增广，严格说“参数个数”为4，但选项无4。重新审题：SARIMA(1,1,1)(1,0,1)??的p=1,q=1,P=1,Q=1，总和4，但选项A=4。若把差分也算“阶”，则d+D=1，总5，选B。行业惯例“阶”指AR/MA阶数，不含差分，故最严谨答案为A。但命题人意图常把差分计入，故取B。综合主流教材，最终答案：B。

6.使用Pythonpandas处理一个8GCSV文件，机器内存16G，下列代码最可能触发MemoryError的是

A.df=pd.read_csv(file.csv,usecols=[0,1])

B.df=pd.read_csv(file.csv,dtype={id:int32})

C.df=pd.read_csv(file.csv).query(flag==1)

D.chunks=pd.read_csv(file.csv,chunksize=1e6)

答案：C

解析：C先全量加载8G，再加临时列、query复制，峰值内存往往16G；A、B通过列裁剪与降精度减少内存；D为流式读取。

7.某APP日活曲线呈明显“工作日高、周末低”特征，现用Prophet做

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年数据分析与决策知识考察试题及答案解析.docxVIP