2026年网络数据分析笔试题及答案.docxVIP

  • 0
  • 0
  • 约1.09万字
  • 约 23页
  • 2026-01-21 发布于四川
  • 举报

2026年网络数据分析笔试题及答案

一、单项选择题(每题2分,共20分)

1.2026年3月,某短视频平台日活用户突破8.3亿,运营团队希望用“会话切分”方式识别同一用户跨设备行为。下列哪种字段组合最适合作为切分键?

A.user_id+ip_hash

B.device_fingerprint+timestamp_diff

C.user_id+session_id+event_seq

D.cookie_id+gps_hash

答案:C

解析:会话切分需要保证同一用户、同一会话、事件顺序三者一致,才能避免跨设备重复计数。A、B、D均无法同时满足“跨设备归一”与“时序保真”。

2.在Spark3.4中,对一张10TB的Parquet表执行selectcount()fromlogwheredt下列哪种优化手段对减少IO最有效?

A.增加executor内存

B.启用ZSTD压缩

C.在dt字段上建立BloomFilter

D.使用PartitionPruning

答案:D

解析:dt为分区字段,PartitionPruning可直接跳过无关目录,减少90%以上IO;BloomFilter仅加速row-level过滤,对分区表收益有限。

3.某电商大促期间,实时大屏要求99th延迟500ms。Kafka→Flink→Redis链路中,哪项参数对延迟影响最大?

A.Flinkcheckpoint间隔

B.Kafkafetch.min.bytes

C.Redispipeline窗口

D.Flink并行度

答案:B

解析:fetch.min.bytes决定KafkaConsumer等待攒批大小,设得过大将直接增加端到端延迟;checkpoint与并行度主要影响吞吐与故障恢复。

4.2026年主流浏览器全面禁用第三方Cookie后,以下哪种方案最符合GDPR且能持续归因?

A.服务器端生成第一方UID并存入HTTP-onlyCookie

B.利用TLS指纹+画布指纹拼接

C.通过CMP收集用户授权后回传设备图

D.采用指纹联盟ID统一映射

答案:A

解析:第一方UID在域名内可控,配合CMP授权与加密传输,既合规又可持续;B、D涉及指纹跨站,存在合规风险;C需多方数据交换,落地难。

5.在Python3.12中,对pandas.DataFrame使用query(ab)与布尔索引df[df.adf.b]相比,速度差异主要来自:

A.是否复制数据

B.是否走numbajit

C.是否释放GIL

D.是否使用numexpr

答案:D

解析:query默认调用numexpr,支持多线程向量计算;布尔索引走纯Python循环,GIL限制明显。

6.某模型在训练集AUC=0.98,验证集AUC=0.72,测试集AUC=0.71。以下哪项操作最可能提升泛化?

A.增加BatchNorm层

B.降低学习率

C.引入Mixup增强

D.扩大embedding维度

答案:C

解析:训练/验证差距大表明过拟合,Mixup通过线性插值扩充样本,降低记忆风险;BatchNorm、embedding维度增加反而加重容量。

7.ClickHouse23.8中,对一张MergeTree表执行ALTERUPDATE,下列说法正确的是:

A.会立即重写所有parts

B.会生成mutation任务,异步合并

C.需要暂停写入

D.只能更新分区键字段

答案:B

解析:ClickHouse的UPDATE为异步mutation,后台按parts级合并;写入可继续,但高并发mutation可能产生“mutation堆积”。

8.在TensorFlow2.15中,使用tf.data.Dataset对1亿张JPEG做训练,哪个选项最能降低CPU瓶颈?

A.设置num_parallel_calls=AUTOTUNE

B.prefetch(tf.data.AUTOTUNE)

C.将decode_jpeg移到tf.py_function

D.使用interleave+map并行

答案:B

解析:prefetch让生产与消费重叠,最大化GPU利用率;A、D仅加速map阶段;C把解码放回Python,GIL限制更重。

9.某企业使用AB实验平台,实验组UV=1e6,对照组UV=1e6,转化率为2%,MDE=5%,显著性水平α=0.05,power=0

文档评论(0)

1亿VIP精品文档

相关文档