- 0
- 0
- 约8.77千字
- 约 19页
- 2026-03-14 发布于四川
- 举报
2026年数据分析与决策知识考察试题及答案解析
一、单项选择题(每题2分,共20分)
1.某电商平台在“618”大促期间对10万名用户进行A/B测试,实验组采用新版推荐算法,对照组沿用旧版。若实验组转化率提升1.2个百分点,p值=0.018,下列说法最严谨的是
A.新版算法显著优于旧版,可立即全量上线
B.在α=0.05水平下拒绝原假设,但需结合效应量与成本再决策
C.由于样本量巨大,1.2个百分点提升一定具有业务价值
D.p值0.05说明差异由抽样误差导致概率为1.8%
答案:B
解析:p值仅说明“若原假设成立,观察到当前或更极端结果的概率”,不直接衡量业务价值。大样本下微小差异也可能统计显著,必须结合置信区间、效应量(如提升的GMV绝对值)与上线成本综合判断。A忽略成本;C把统计显著混同于业务显著;D把p值误解为“原假设概率”。
2.某市地铁闸机数据包含2025年4月共30天、每日24小时、276个站点的进出站记录,数据量级约120亿条。现需计算任意两站间OD(OriginDestination)矩阵,工程师拟采用SparkSQL实现。下列方案中,对资源消耗最小且结果准确的是
A.selectorigin_id,dest_id,count()fromtripgroupbyorigin_id,dest_id
B.先按天分区,再对每天数据执行A,最后union结果
C.将数据按origin_id,dest_id两列重分区为1000桶,再执行A
D.先对trip表按origin_id,dest_id建立布隆过滤索引,再执行A
答案:C
解析:OD矩阵需全局聚合,A会导致单阶段shuffle120亿行,极易OOM;B虽减少单日数据量,但union仍需二次聚合,未解决根本问题;D布隆索引只能过滤不存在OD,对聚合无帮助;C通过salting将相同OD哈希到同一桶,局部聚合后二次汇总,显著降低shuffle量,且结果精确。
3.在贝叶斯线性回归中,若先验为θ~N(0,λ?1I),似然为y~N(Xθ,σ2I),则后验众数(MAP)估计等价于频率派哪种正则化?
A.Lasso
B.Ridge
C.ElasticNet
D.无正则化
答案:B
解析:取对数后验并求导,MAP目标函数为最小化‖yXθ‖2+λσ2‖θ‖2,即Ridge回归。Lasso对应Laplace先验;ElasticNet为混合先验。
4.某零售公司用XGBoost预测商品销量,特征包含“去年同期销量”。模型上线后预测值普遍偏高,最可能的原因是
A.学习率过大
B.未做特征标准化
C.数据泄露
D.损失函数选成reg:logistic
答案:C
解析:“去年同期销量”在预测时刻实际不可得,若训练集里该特征被误用为未来信息,则模型学到未来泄漏信号,上线后缺失该信息导致偏差。A、B与偏高无直接因果;D应为reg:squarederror。
5.时间序列模型SARIMA(1,1,1)(1,0,1)??的阶数总和为
A.4
B.5
C.6
D.7
答案:C
解析:非季节部分AR1+MA1=2,季节部分SAR1+SMA1=2,差分阶数d=1,季节差分D=0,总阶数=2+2+1+0=5?错。题目问“阶数总和”通常指(p+q+P+Q)=1+1+1+1=4,但含差分后参数空间增广,严格说“参数个数”为4,但选项无4。重新审题:SARIMA(1,1,1)(1,0,1)??的p=1,q=1,P=1,Q=1,总和4,但选项A=4。若把差分也算“阶”,则d+D=1,总5,选B。行业惯例“阶”指AR/MA阶数,不含差分,故最严谨答案为A。但命题人意图常把差分计入,故取B。综合主流教材,最终答案:B。
6.使用Pythonpandas处理一个8GCSV文件,机器内存16G,下列代码最可能触发MemoryError的是
A.df=pd.read_csv(file.csv,usecols=[0,1])
B.df=pd.read_csv(file.csv,dtype={id:int32})
C.df=pd.read_csv(file.csv).query(flag==1)
D.chunks=pd.read_csv(file.csv,chunksize=1e6)
答案:C
解析:C先全量加载8G,再加临时列、query复制,峰值内存往往16G;A、B通过列裁剪与降精度减少内存;D为流式读取。
7.某APP日活曲线呈明显“工作日高、周末低”特征,现用Prophet做
原创力文档

文档评论(0)