贵州公需科目大数据培训考试试题及参考答案.docxVIP

贵州公需科目大数据培训考试试题及参考答案.docx

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

贵州公需科目大数据培训考试试题及参考答案

一、单项选择题

1.大数据的4V特征不包括以下哪一项()

A.Volume(大量)

B.Velocity(高速)

C.Variety(多样)

D.Value(虚拟)

参考答案:D。大数据的4V特征分别是Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),不包括虚拟,所以选D。

2.以下哪种数据类型不属于结构化数据()

A.数据库中的表数据

B.Excel表格数据

C.网页文本

D.财务报表数据

参考答案:C。结构化数据是指可以用二维表结构来逻辑表达实现的数据,如数据库表数据、Excel表格数据、财务报表数据等。网页文本是非结构化数据,它没有固定的结构,所以选C。

3.以下哪个工具常用于大数据的分布式存储()

A.HBase

B.MySQL

C.Oracle

D.SQLServer

参考答案:A。HBase是一个分布式、面向列的开源数据库,常用于大数据的分布式存储。而MySQL、Oracle、SQLServer是传统的关系型数据库,不适合大数据的分布式存储场景,所以选A。

4.以下哪种算法属于分类算法()

A.K-Means算法

B.决策树算法

C.主成分分析算法

D.关联规则算法

参考答案:B。决策树算法是一种常用的分类算法,它通过构建决策树模型来对数据进行分类。K-Means算法是聚类算法,用于将数据分成不同的簇;主成分分析算法是一种降维算法,用于减少数据的维度;关联规则算法用于发现数据中的关联关系,所以选B。

5.大数据处理的Lambda架构中,批处理层通常使用以下哪种技术()

A.SparkStreaming

B.Storm

C.MapReduce

D.Flink

参考答案:C。在大数据处理的Lambda架构中,批处理层通常使用MapReduce技术来处理大规模的历史数据。SparkStreaming、Storm、Flink主要用于实时流处理,所以选C。

6.以下哪个指标可以用来衡量数据的离散程度()

A.均值

B.中位数

C.众数

D.标准差

参考答案:D。标准差是用来衡量数据的离散程度的指标,它反映了数据相对于均值的分散程度。均值是数据的平均值,中位数是将数据按大小顺序排列后位于中间位置的数值,众数是数据中出现次数最多的数值,它们都不能直接衡量数据的离散程度,所以选D。

7.以下哪种数据清洗操作可以处理缺失值()

A.数据去重

B.数据标准化

C.插值法

D.数据归一化

参考答案:C。插值法是一种处理缺失值的常用方法,它可以根据已知数据来估算缺失值。数据去重是去除重复的数据记录;数据标准化和归一化是对数据进行变换,使其具有特定的特征,而不是处理缺失值,所以选C。

8.以下哪个平台是专门用于大数据可视化的()

A.Hadoop

B.Tableau

C.Spark

D.Hive

参考答案:B。Tableau是一款专门用于大数据可视化的工具,它可以将数据以直观的图表、图形等形式展示出来。Hadoop是一个大数据处理框架,主要用于数据的存储和处理;Spark是一个快速通用的集群计算系统;Hive是基于Hadoop的一个数据仓库工具,主要用于数据的查询和分析,所以选B。

9.以下哪种数据库适合存储时序数据()

A.MongoDB

B.Cassandra

C.InfluxDB

D.Redis

参考答案:C。InfluxDB是一种专门为存储和处理时序数据而设计的数据库,它具有高效的写入和查询性能,适合存储如传感器数据、日志数据等时序数据。MongoDB是一种文档型数据库,主要用于存储非结构化数据;Cassandra是一种分布式NoSQL数据库,适用于大规模数据存储;Redis是一种内存数据库,主要用于缓存和实时数据处理,所以选C。

10.以下哪个算法可以用于预测连续数值()

A.逻辑回归算法

B.支持向量机分类算法

C.线性回归算法

D.朴素贝叶斯算法

参考答案:C。线性回归算法是一种用于预测连续数值的算法,它通过建立自变量和因变量之间的线性关系来进行预测。逻辑回归算法、支持向量机分类算法、朴素贝叶斯算法主要用于分类问题,用于预测离散的类别标签,所以选C。

二、多项选择题

1.大数据在以下哪些领域有广泛应用()

A.金融

B.医疗

C.交通

D.教育

参考答案:ABCD。大数据在金融领域可用于风险评估、信贷分析等;在医疗领域可用于疾病预测、医疗质量评估等;在交通领域可用于交通流量预测、智能交通管理等

您可能关注的文档

文档评论(0)

欣欣 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档