2026大学数据采集与预处理试卷及答案.docxVIP

  • 2
  • 0
  • 约5.47千字
  • 约 13页
  • 2026-05-31 发布于四川
  • 举报

2026大学数据采集与预处理试卷及答案.docx

2026大学数据采集与预处理试卷及答案

1.单选题(每题2分,共20分)

1.1在Python中,使用pandas读取CSV文件时,默认将缺失值解析为

A.NaT??B.None??C.NaN??D.null

答案:C

1.2下列关于数据湖描述正确的是

A.仅支持结构化数据??B.采用“先建模后入湖”策略

C.通常使用Schema-on-Read??D.不支持流式写入

答案:C

1.3在HDFS中,NameNode的主要职责是

A.存储数据块??B.管理元数据??C.执行Map任务??D.压缩数据

答案:B

1.4给定离散随机变量X的分布列P(X=0)=0.3,P(X=1)=0.7,则其熵H(X)为

A.0.3ln0.3+0.7ln0.7??B.?0.3log?0.3?0.7log?0.7

C.0.3log?0.3+0.7log?0.7??D.1

答案:B

1.5在Kafka中,保证同一分区消息顺序性的单位是

A.Broker??B.Topic??C.Partition??D.ConsumerGroup

答案:C

1.6使用Scrapy框架时,负责去重的组件是

A.Downloader??B.Scheduler??C.DuplicatesFilter??D.ItemPipeline

答案:C

1.7在SQL中,将

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档