- 0
- 0
- 约1.09万字
- 约 23页
- 2026-01-21 发布于四川
- 举报
2026年网络数据分析笔试题及答案
一、单项选择题(每题2分,共20分)
1.2026年3月,某短视频平台日活用户突破8.3亿,运营团队希望用“会话切分”方式识别同一用户跨设备行为。下列哪种字段组合最适合作为切分键?
A.user_id+ip_hash
B.device_fingerprint+timestamp_diff
C.user_id+session_id+event_seq
D.cookie_id+gps_hash
答案:C
解析:会话切分需要保证同一用户、同一会话、事件顺序三者一致,才能避免跨设备重复计数。A、B、D均无法同时满足“跨设备归一”与“时序保真”。
2.在Spark3.4中,对一张10TB的Parquet表执行selectcount()fromlogwheredt下列哪种优化手段对减少IO最有效?
A.增加executor内存
B.启用ZSTD压缩
C.在dt字段上建立BloomFilter
D.使用PartitionPruning
答案:D
解析:dt为分区字段,PartitionPruning可直接跳过无关目录,减少90%以上IO;BloomFilter仅加速row-level过滤,对分区表收益有限。
3.某电商大促期间,实时大屏要求99th延迟500ms。Kafka→Flink→Redis链路中,哪项参数对延迟影响最大?
A.Flinkcheckpoint间隔
B.Kafkafetch.min.bytes
C.Redispipeline窗口
D.Flink并行度
答案:B
解析:fetch.min.bytes决定KafkaConsumer等待攒批大小,设得过大将直接增加端到端延迟;checkpoint与并行度主要影响吞吐与故障恢复。
4.2026年主流浏览器全面禁用第三方Cookie后,以下哪种方案最符合GDPR且能持续归因?
A.服务器端生成第一方UID并存入HTTP-onlyCookie
B.利用TLS指纹+画布指纹拼接
C.通过CMP收集用户授权后回传设备图
D.采用指纹联盟ID统一映射
答案:A
解析:第一方UID在域名内可控,配合CMP授权与加密传输,既合规又可持续;B、D涉及指纹跨站,存在合规风险;C需多方数据交换,落地难。
5.在Python3.12中,对pandas.DataFrame使用query(ab)与布尔索引df[df.adf.b]相比,速度差异主要来自:
A.是否复制数据
B.是否走numbajit
C.是否释放GIL
D.是否使用numexpr
答案:D
解析:query默认调用numexpr,支持多线程向量计算;布尔索引走纯Python循环,GIL限制明显。
6.某模型在训练集AUC=0.98,验证集AUC=0.72,测试集AUC=0.71。以下哪项操作最可能提升泛化?
A.增加BatchNorm层
B.降低学习率
C.引入Mixup增强
D.扩大embedding维度
答案:C
解析:训练/验证差距大表明过拟合,Mixup通过线性插值扩充样本,降低记忆风险;BatchNorm、embedding维度增加反而加重容量。
7.ClickHouse23.8中,对一张MergeTree表执行ALTERUPDATE,下列说法正确的是:
A.会立即重写所有parts
B.会生成mutation任务,异步合并
C.需要暂停写入
D.只能更新分区键字段
答案:B
解析:ClickHouse的UPDATE为异步mutation,后台按parts级合并;写入可继续,但高并发mutation可能产生“mutation堆积”。
8.在TensorFlow2.15中,使用tf.data.Dataset对1亿张JPEG做训练,哪个选项最能降低CPU瓶颈?
A.设置num_parallel_calls=AUTOTUNE
B.prefetch(tf.data.AUTOTUNE)
C.将decode_jpeg移到tf.py_function
D.使用interleave+map并行
答案:B
解析:prefetch让生产与消费重叠,最大化GPU利用率;A、D仅加速map阶段;C把解码放回Python,GIL限制更重。
9.某企业使用AB实验平台,实验组UV=1e6,对照组UV=1e6,转化率为2%,MDE=5%,显著性水平α=0.05,power=0
原创力文档

文档评论(0)