2025年数据科学与大数据技术考试试卷及答案.docxVIP

2025年数据科学与大数据技术考试试卷及答案.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年数据科学与大数据技术考试及答案

1单项选择题(每题2分,共30分)

1.1在Hadoop3.3.x中,默认的块大小从128MB调整为

A.64MBB.256MBC.512MBD.1GB

答案:B

解析:Hadoop3.x系列将默认块大小提升至256MB,以降低NameNode内存压力并减少寻址次数。

1.2给定Spark3.4DataFramedf,执行df.repartition(100).cache().count()后,RDD的partitioner属性值为

A.NoneB.HashPartitionerC.RangePartitionerD.不确定

答案:A

解析:repartition(n)采用随机洗牌,不设置partitioner;cache()仅存储分区数据,不改变partitioner。

1.3使用Pythonstatsmodels进行时间序列分析时,若ADF检验的p值为0.018,则

A.序列平稳B.序列非平稳C.无法判断D.需再做KPSS检验

答案:A

解析:p0.05拒绝原假设(存在单位根),认为序列平稳。

1.4在Flink1.17的TableAPI中,将流表注册为临时视图的正确语句是

A.tableEnv.createTemporaryView(v,table)

B.tableEnv.registerTable(v,table)

C.tableEnv.sqlUpdate(CREATEVIEWvASSELECTFROMtable)

D.tableEnv.connect(...).createTemporaryTable(v)

答案:A

解析:1.10之后废弃registerTable,统一用createTemporaryView。

1.5某电商用户行为日志采用列式存储,字段event_time为毫秒时间戳,若需按天分区且保证分区裁剪生效,最佳实践是

A.将event_time转为yyyy-MM-dd字符串并作为一级分区列

B.将event_time保留为timestamp并作为分区列

C.将event_time转为整数days_since_epoch并作为分区列

D.不做分区,依赖索引过滤

答案:A

解析:Hive/Spark均对字符串分区裁剪优化最成熟,且可读性高。

1.6在XGBoost2.0中,设置objective=reg:tweedie时,必须同时指定

A.tweedie_variance_powerB.base_scoreC.eval_metricD.max_depth

答案:A

解析:tweedie_variance_power决定方差与均值关系,为必需参数。

1.7某Kafka集群共9个broker,副本因子3,min.insync.replicas=2,当ISR列表仅剩1个副本时,生产者acks=all会

A.正常写入B.抛出NotEnoughReplicasException

C.降级为acks=1D.阻塞等待ISR恢复

答案:B

解析:ISRmin.insync.replicas时拒绝写入。

1.8使用PyTorch2.1训练BERT-large,开启pile(mode=max-autotune)后,下列操作中不会被CUDAGraph捕获的是

A.nn.LayerNormB.nn.DropoutC.optimizer.step()D.loss.backward()

答案:C

解析:optimizer.step()涉及显存外的参数更新,CUDAGraph无法捕获。

1.9在Snowflake中,将半结构化数据加载至VARIANT列后,欲提取嵌套字段file.age,应使用

A.GET_PATH(col,file.age)

B.col:user:profile:age

C.JSON_EXTRACT(col,$.file.age)

D.col[user][profile][age]

答案:B

解析:Snowflake专用语法:符号用于VARIANT路径。

1.10某深度学习模型采用混合精度训练,损失缩放因子初始值1024,在梯度出现NaN后,自动调整策略为

A.乘以2B.除以2C.保持不变D.重置为1

答案:B

解析:NaN表明溢出,需降低缩放因子。

1.11在ClickHouse

文档评论(0)

139****4220 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档