- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
名词解释
1.Hadoop:是一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架
构。基于 Java 语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计
算机集群中。核心是分布式文件系统 HDFS (Hadoop Distributed File System)
和 MapReduce。
2.HDFS: 是 Hadoop 的一个分布式文件系统,它的主要设计理念为存储超大文件,最高效
的访问模式是一次写入、多次读取,运行在普通廉价的服务器上。
3.Hbase: 是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结
构化和半结构化的松散数据。 $ hbase shell
4.Spark : AMP 实验室于 2009 年开发,基于内存计算的大数据并行计算框架,可用于构建
大型的、低延迟的数据分析应用程序
5.推荐系统:是自动联系用户和物品的一种工具,通过研究用户的兴趣偏好,进行个性化计
算,帮助用户从海量信息中去发掘自己潜在的需求
6.网络爬虫 :又称为网络蜘蛛,是一种按照一定的规则,自动的抓取万维网信息的程序或者
脚本。
7.大数据: 一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库能力范围
的数据集合(1.数据量大 2.数据类型多 3.处理速度快 4 价值密度低即 Volume 、
Variety 、Value 、Velocity )
8.物联网:物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传
感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与
物相联,实现信息化和远程管理控制
9.云计算:通过整合和管理分布在网络各处的计算资源,提供可伸缩的、廉价的分布式计算
能力,通过互联网以统一界面,向大量的用户提供服务的一种模式
10 数据可视化:将大型集中的数据以图形图像形式表示,并利用数据分析和开发工具发现
其中未知信息的处理过程
简答题
1.hadoop 有哪些组件以及功能?
答:主要组件有分布式文件系统 HDFS,为海量数据提供存储; 分布式并行编程模型
Mapreduce 为用户提供强大的计算能力。
2.MapReduce 的运行过程是什么样的?
答:从分布式文件系统读入数据、执行 Map 任务输出中间结果、通过 Shuffle 阶段把
中间结果分区排序整理后发送给 Reduce 任务、执行 Reduce 任务得到最终结果并写入
分布式文件系统。(执行 map 函数把一组键值对按照相关的规则映射成一组新的键值
对,并交由归约函数处理)
3.Hbase 的主要功能组件有哪些?
答:(1)库函数:链接到每个客户端
(2 )一个 Master 主服务器 (3 )许多个 Region 服务器
4.Hbase 与传统的数据库有什么区别?
答 (1)数据类型:关系数据库采用关系模型,HBase 则采用了更加简单的数据模型
(2 )数据操作:关系数据库中包含了丰富的操作,HBase 操作只有简单的插入、查
询、删除、清空等
(3 )存储模式:关系数据库是基于行模式存储的,HBase 是基于列存储的。
(4 )数据索引:关系数据库通常可以针对不同列构建复杂的多个索引,以提高数据
访问性能。HBase 只有一个索引——行键
(5 )数据维护:在关系数据库中,更新操作会用最新的当前值去替换记录中原来的
旧值,旧值被覆盖后就不会存在。而在 HBase 中执行更新操作时,
并不会删除数据旧的版本
(6 )可伸缩性:关系数据库很难实现横向扩展,纵向扩展的空间也比较有限。而 hbase
正好相反。
5.数据可视化思想及其作用?
答:数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示,
大量的数据集
原创力文档


文档评论(0)