- 0
- 0
- 约4.67千字
- 约 15页
- 2026-06-05 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年大数据初学者系统练习指南
一、单选题(共10题,每题2分)
1.在大数据时代,以下哪项技术最能体现“快速”这一特点?
A.Hadoop
B.Spark
C.Elasticsearch
D.MySQL
2.假设某城市每天产生100GB的交通数据,若每GB约需0.5元存储成本,存储一年的总费用最接近?
A.18万元
B.36万元
C.72万元
D.144万元
3.在处理实时数据时,以下哪种架构最适合高吞吐量场景?
A.传统关系型数据库
B.Kafka
C.Hive
D.MongoDB
4.某电商网站需要分析用户购买行为,以下哪种算法最适合分类任务?
A.K-means聚类
B.决策树
C.线性回归
D.PCA降维
5.以下哪个指标最能反映数据集的离散程度?
A.均值
B.方差
C.中位数
D.极差
6.在大数据采集阶段,以下哪种工具最适合爬取动态网页数据?
A.BeautifulSoup
B.Scrapy
C.Selenium
D.Pandas
7.假设某公司使用Hadoop集群处理日志数据,若集群中有100个节点,每个节点内存为32GB,总内存最接近?
A.3.2TB
B.6.4TB
C.12.8TB
D.25.6TB
8.在数据清洗过程中,以下哪种方法最
原创力文档

文档评论(0)