2026年大数据初学者系统练习指南.docxVIP

  • 0
  • 0
  • 约4.67千字
  • 约 15页
  • 2026-06-05 发布于福建
  • 举报

第PAGE页共NUMPAGES页

2026年大数据初学者系统练习指南

一、单选题(共10题,每题2分)

1.在大数据时代,以下哪项技术最能体现“快速”这一特点?

A.Hadoop

B.Spark

C.Elasticsearch

D.MySQL

2.假设某城市每天产生100GB的交通数据,若每GB约需0.5元存储成本,存储一年的总费用最接近?

A.18万元

B.36万元

C.72万元

D.144万元

3.在处理实时数据时,以下哪种架构最适合高吞吐量场景?

A.传统关系型数据库

B.Kafka

C.Hive

D.MongoDB

4.某电商网站需要分析用户购买行为,以下哪种算法最适合分类任务?

A.K-means聚类

B.决策树

C.线性回归

D.PCA降维

5.以下哪个指标最能反映数据集的离散程度?

A.均值

B.方差

C.中位数

D.极差

6.在大数据采集阶段,以下哪种工具最适合爬取动态网页数据?

A.BeautifulSoup

B.Scrapy

C.Selenium

D.Pandas

7.假设某公司使用Hadoop集群处理日志数据,若集群中有100个节点,每个节点内存为32GB,总内存最接近?

A.3.2TB

B.6.4TB

C.12.8TB

D.25.6TB

8.在数据清洗过程中,以下哪种方法最

文档评论(0)

1亿VIP精品文档

相关文档