网站大量收购独家精品文档,联系QQ:2885784924

大数据处理基础知识点题库.docVIP

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据处理基础知识点题库

姓名_________________________地址_______________________________学号______________________

-------------------------------密-------------------------封----------------------------线--------------------------

1.请首先在试卷的标封处填写您的姓名,身份证号和地址名称。

2.请仔细阅读各种题目,在规定的位置填写您的答案。

一、选择题

1.大数据处理的三个V是指什么?

A.Volume、Variety、Velocity

B.Velocity、Variety、Veracity

C.Veracity、Velocity、Volume

D.Volume、Veracity、Variety

2.以下哪个不是大数据处理常用的技术?

A.Hadoop

B.Spark

C.Kafka

D.TensorFlow

3.以下哪个不是大数据处理的数据存储方式?

A.分布式文件系统

B.关系型数据库

C.NoSQL数据库

D.数据仓库

4.以下哪个不是大数据处理的数据分析工具?

A.Python

B.R

C.Java

D.SQL

5.以下哪个不是大数据处理的数据挖掘算法?

A.Kmeans

B.DecisionTree

C.SupportVectorMachine

D.NeuralNetwork

6.以下哪个不是大数据处理的数据可视化工具?

A.Tableau

B.PowerBI

C.D3.js

D.Excel

7.以下哪个不是大数据处理的数据采集方式?

A.实时采集

B.批量采集

C.手动采集

D.自动采集

8.以下哪个不是大数据处理的数据清洗方法?

A.去除重复数据

B.去除缺失数据

C.数据标准化

D.数据加密

答案及解题思路:

1.答案:A

解题思路:大数据处理的三个V指的是Volume(数据量)、Variety(数据多样性)和Velocity(数据速度),故选A。

2.答案:D

解题思路:Hadoop、Spark和Kafka都是大数据处理常用的技术,而TensorFlow主要应用于机器学习和深度学习领域,不属于大数据处理常用技术。

3.答案:B

解题思路:分布式文件系统、NoSQL数据库和数据仓库都是大数据处理的数据存储方式,而关系型数据库主要用于结构化数据存储。

4.答案:C

解题思路:Python和R都是大数据处理常用的数据分析工具,Java虽然可以用于大数据处理,但不是专门的数据分析工具。SQL是数据库查询语言,不属于大数据处理的数据分析工具。

5.答案:D

解题思路:Kmeans、DecisionTree和支持VectorMachine都是大数据处理常用的数据挖掘算法,而NeuralNetwork虽然可以应用于数据挖掘,但不是最常用的算法。

6.答案:D

解题思路:Tableau、PowerBI和D3.js都是大数据处理常用的数据可视化工具,而Excel虽然可以用于数据可视化,但不是专业的数据可视化工具。

7.答案:C

解题思路:实时采集、批量采集和自动采集都是大数据处理的数据采集方式,而手动采集不是自动化采集方式。

8.答案:D

解题思路:去除重复数据、去除缺失数据和数据标准化都是大数据处理的数据清洗方法,而数据加密不是数据清洗方法。

二、填空题

1.大数据处理的三个V分别是Volume、Velocity、Variety。

2.Hadoop生态系统中的核心组件包括HadoopDistributedFileSystem(HDFS)、MapReduce、YARN。

3.Spark的运行模式主要有Local、Standalone、Cluster。

4.Kafka主要用于消息队列、日志收集、流处理。

5.NoSQL数据库的特点包括非关系型、可扩展性、高功能。

6.Python在数据分析中的应用主要体现在数据清洗、数据摸索、模型构建。

7.Kmeans算法是一种聚类算法,它将数据集分成K个簇。

8.TensorFlow是一种机器学习框架,主要用于深度学习。

答案及解题思路:

1.答案:Volume,Velocity,Variety

解题思路:大数据处理的三个V,Volume指的是数据量的大小,Velocity指的是数据处理的速度,Variety指的是数据的多样性。这三个V是描述大数据特征的关键。

2.答案:HDFS,MapReduce,YARN

解题思路:Hadoop的核心组件包括存储数

文档评论(0)

151****5561 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档