大数据导论题库及答案.pdfVIP

  • 0
  • 0
  • 约3.2千字
  • 约 5页
  • 2026-03-04 发布于河南
  • 举报

大数据导论题库及答案

一、单项选择题(每题2分,共20分)

1.以下哪种数据不属于大数据的来源?()

A.社交媒体B.传感器C.个人电脑单机游戏记录D.电商交易

记录

2.大数据的4V特征不包括以下哪一项?()

A.海量性(Volume)B.多样性(Variety)C.准确性

(Veracity)D.可变性(Volatility)

3.以下哪个工具常用于大数据存储?()

A.SparkB.HadoopDistributedFileSystem(HDFS)C.

MapReduceD.Flink

4.以下哪种数据处理模式适合实时处理大数据流?()

A.批处理B.流处理C.交互式处理D.离线处理

5.大数据分析的第一步通常是()

A.数据清洗B.数据挖掘C.数据采集D.数据分析

6.以下哪个算法属于聚类算法?()

A.决策树B.K-MeansC.支持向量机D.朴素贝叶斯

7.以下哪项不是NoSQL数据库的特点?()

A.高可扩展性B.严格的事务处理C.灵活的数据模型D.高性

8.在Hadoop生态系统中,负责资源管理和调度的是()

A.NameNodeB.DataNodeC.YARND.MapReduce

9.数据可视化的主要目的是()

A.展示数据的美观性B.更直观地理解数据C.隐藏数据中的问题

D.减少数据量

10.以下哪个不是大数据安全面临的挑战?()

A.数据隐私保护B.数据量太大难以备份C.访问控制D.数据

泄露

答案:1.C2.D3.B4.B5.C6.B7.B8.C9.B10.B

二、多项选择题(每题2分,共20分)

1.以下属于大数据应用领域的有()

A.医疗保健B.金融C.教育D.交通

2.以下哪些是数据清洗的操作?()

A.去除重复数据B.数据标准化C.数据转换D.处理缺失值

3.以下属于分布式计算框架的有()

A.SparkB.HadoopC.FlinkD.Python

4.大数据分析中常用的机器学习算法有()

A.线性回归B.逻辑回归C.神经网络D.遗传算法

5.以下关于Hadoop的描述正确的有()

A.是一个分布式计算平台B.包含HDFS、MapReduce等组件C.

适合处理大规模数据集D.仅支持批处理

6.以下哪些属于NoSQL数据库类型?()

A.键值存储数据库B.文档存储数据库C.图形数据库D.关系

型数据库

7.数据挖掘的主要任务包括()

A.分类B.关联规则挖掘C.预测D.聚类

8.大数据存储系统需要具备的特性有()

A.高可靠性B.高扩展性C.低成本D.低延迟

9.以下哪些是数据预处理的步骤?()

A.数据采样B.特征选择C.数据离散化D.模型评估

10.大数据安全技术包括()

A.数据加密B.身份认证C.访问控制D.数据脱敏

答案:1.ABCD2.ABD3.ABC4.ABC5.ABC6.ABC7.ABCD

8.ABC9.ABC10.ABCD

三、判断题(每题2分,共20分)

1.大数据仅仅指数据量非常大的数据。()

2.Spark比HadoopMapReduce计算速度慢。()

3.数据仓库是面向事务处理的数据库。()

4.聚类算法是无监督学习算法。()

5.所有的大数据都需要实时处理。()

6.HDFS中NameNode负责存储实际的数据。()

7.数据

文档评论(0)

1亿VIP精品文档

相关文档