大数据技术形考作业.docxVIP

下载本文档

126
0
约4.91千字
约 5页
2022-06-19 发布于江苏
举报
版权申诉

大数据技术形考作业.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1、信息技术为大数据时代提供的技术支撑主要体现在哪些方面？存储设备容呈不断增加， CPU 处理能力大幅提升，网络带宽不断增加 2、人类社会的数据产生方式大致经历了哪些阶段？运营式系统阶段，用户原创内容阶段，感知式系统阶段 3、大数据的 4V 分别指代的是什么？规模性，高速性，多样性，价值性 4、大数据技术是什么？大数据技术是指大数据的应用技术，涵盖各类大数据平台、大数据指数体系等大数据应用技术。 5、从数据分析全流程的角度，大数据技术主要包括那几个内容。数据的采集与处理，数据的存储和管理，数据处理与分析，数据安全和隐私保护 6、大数据计算模式有哪些？批处理计算，流计算图计算，查询分析计笢 7、云计算的概念云计算是分布式计算的一种，指的是通过网络云将巨大的数据计算处理程序分解成无数个小程序然后通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。 8、云计算的关键技术云计算平台管理技术，分布式计算的编程模式分布式海呈数据存储，海虽数据管理技术，虚拟化技术 9、物联网的概念物联网是指通过各种信息传感器，射频识别技术，全球定位系统，红外感应器，激光扫描器等各种装罣与技术，实时采集任何需要监控、连接、互动的物体或过程。 10、从技术架构上来看，物联网可分为四层，分别是（感知层，网络层，平台层，应用层）？ 11、物联网的关键技术有哪些？ RFID 技术传感器技术无线网络技术人工智能技术，云计算技术 1 2、大数据与云计算、物联网的关系云计算为大数据提供了技术基础，大数据为云计算提供用武之地物联网是大数据的重要来源，大数据技术为物联网数据分析提供支持云计算为物联网提供了海呈数据存储能力，物联网为云技术提供了广阔的应用空间 13、Hadoop 是基于 (java) 语言开发的。 14、Hado op 的核心是 (HDFS) 15、Hadoop 的特性有哪些？ 1 高可靠性采取冗余数据存储方式。即使一个副本发生故障，其他副本也可以保证正常对外提供服务。高效性．采取分布式存储和分布式处理两大核心技术。能够高效的处理PB级数据。高可扩展性高容错性．自动保存数据的多个副本，自动将失败的任务重新分配。成本低运行在Linux揉作系统上支持多种编程语言 16、Hadoop 生态系统分别是 (HDFS,HADOOP YARN,Ambari,Hbase,Hive,Pig,Spark,Sqoop) 17、HDFS要实现的目标是（兼容廉价的硬件设备，流数据读写，简单的文件模式） 18、HDFS的局限性是（不适合低延迟数据访问，无法高效存储大呈小文件，不支持多用户写入及任意修改文件） 19、HDFS 的数据存取策略（冗余数据保存数据存取策略数据错误与恢复） 20、简述HDFS的数据读写过程。 client 发起文件上传讲求，通过 RPC 与 NameNode 建立通讯， NameNode 检查目标文件是否已存在，父目录是否存在，返回是否可以上传， cl ien t 请求第一个 block 该传输到哪些 DataNode 服务器上， Nam eN od e 根据配驾文件中指定的备份数虽及副本放篮策略进行文件分配，返回可用的 DataNode 的地址，如．A， B, C , c l ient 请求3 台 DataNode 中的一台 A 上传数据（本质上是一个 RPC 调用，建立 pipel ine) , A 收到讲求会继续调用8, 然后B 调用C, 将整个 pipeline 建立完成，后逐级返回 c l ient ; cl ien t 开始往A 上传第一个 block （先从磁盘读取数据放到一个本地内存缓存），以 packet为单位（默认 64K) , A 收到一个 packet 就会传给 8, B 传给 C ; A 每传一个 packet 会放入一个应答队列等待应答。数据被分割成一个个 packet 数据包在 pipeline 上依次传输，在 pipeline 反方向上，逐个发送 ack (ack 应答机制），最终由pipeline 中第一个 DataNod e 节点A 将 pipeline ack 发送给client: 当一个 block 传输完成之后， client 再次请求 NameNode 上传第二个 block 到服务器。 21、HBase是针对谷歌BigTable 的开源实现，是一个（高可靠、高性能、高向列、可伸缩）的分布式数据库。 22、HBase的系统架构包括 ( Zookeeper 服务器、Master 主服务器、Reg ion

您可能关注的文档

文档评论（0）

153****9685 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大数据技术形考作业.docxVIP