- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
项目2大数据技术
项目导读大数据的应用与发展必然要依托于一定的技术基础。理解与掌握大数据的相关技术,为进行大数据开发打下基础。本项目介绍大数据开发涉及到的相关技术,Hadoop、Hadoop组件、大数据处理流程以及大数据开发框架。项目2
教学目标了解Linux系统的基本信息。了解大数据相关的编程语言。掌握大数据处理流程。项目2认识Hadoop及生态圈。
CONTENTS任务一大数据技术概述任务二认识Hadoop项目2
CONTENTS01大数据技术概述
任务描述大数据技术是伴随着大数据的采集、存储、分析和结果呈现的相关技术,使用非传统的工具对大量的数据进行处理,从而获得分析和预测结果的一系列技术。项目2任务一讨论和认识大数据技术,是我们走进大数据开发的第一步。
概念是对海量数据进行科学分析和有效处理的一种先进技术形式。关键充分挖掘数据中蕴涵的价值并同相关的具体业务结合以实现数据的增值。应用异构计算、批流融合、云化、兼容AI、内存计算。数据管理的技术集合大数据技术简介1项目2任务一【知识链接】
操作系统2定义作用常见的操作系统管理计算机硬件与软件资源的计算机程序。Windows、Unix、Linux和mac系统对计算机的软、硬件资源的合理调配,优化资源板块的使用效率和使用程度,为程序运行提供基础。项目2任务一【知识链接】
操作系统2Linux操作是一个免费、自由、开放的操作系统经历了3个发展阶段:单一个人维护阶段、广大黑客志愿者加入阶段、Linux核心的细分工快速发展阶段免费、开源,不会受到任何商业化版本的制约,提供了复杂的软件包管理系统。Linux系统Hadoop项目2任务一【知识链接】
大数据编程语言3R语言Java语言Python语言开源、免费,简单易上手,活跃的动态系统。适用于统计分析、数据挖掘、机器学习和数据可视化。面向对象、解释型、跨平台的程序设计语言。Java分为三个体系:JavaSE、JavaEE、JavaME。安全、稳定的开发环境里,多线程、分布式、函数式编程。面向对象的解释型计算机程序设计语言。支持多种库,能够解决大数据分析问题。适合快速数据科学应用程序开发。Scala语言多范式的编程语言。以简洁,优雅和类型安全的方式表达常见的编程模式。促进大规模并行处理的能力项目2任务一【知识链接】
大数据处理与分析4需求信息数据采集数据预处理数据分析与处理数据可视化价值应用大数据处理起步于需求,需求信息是整个分析流程的起点,为整个数据处理流程提供清晰的指引方向。通过对应用情境的充分调研、对管理决策需求信息的深入分析,可明确大数据处理与分析的目标,从而为大数据收集、存储、处理、分析等过程提供明确的方向,并保障大数据分析结果的可用性、价值性和用户需求的满足。数据采集是数据从无到有的过程,也是数据传输搬运的过程。数据源会影响大数据质量的真实性、完整性数据收集、一致性、准确性和安全性。大数据采集过程中通常有一个或多个数据源,针对不同的数据源,要使用不同的采集技术和存储模式。数据预处理让数据变成干净规整的结构化数据,保证大数据分析与预测结果的准确性与价值性。大数据的预处理环节主要包括数据清理、数据集成、数据归约与数据转换等内容。通过大数据的预处理环节可以大大提高大数据的总体质量,是大数据过程质量的体现。数据清理技术包括对数据的不一致检测、噪声数据的识别、数据过滤与修正等方面。大数据预处理中的相关技术是影响大数据过程质量的关键因素。大数据分析技术包括已有数据的分布式统计分析技术和未知数据的分布式挖掘、深度学习技术。数据分析是大数据处理与应用的关键环节,应根据大数据应用情境与决策需求,选择合适的数据分析技术。进行大数据处理时,要根据大数据类型选择合适的存储形式和数据处理系统,以实现大数据质量的最优化。数据可视化是指将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程,并可与用户进行交互式处理。数据可视化技术有利于发现大量业务数据中隐含的规律性信息,以支持管理决策。数据可视化环节可大大提高大数据分析结果的直观性,便于用户理解与使用,故数据可视化是影响大数据可用性和易于理解性质量的关键因素。价值应用是大数据处理的最终目的。将经过分析处理后挖掘得到的大数据结果应用于管理决策、战略规划等,是对大数据分析结果的检验与验证,直接体现了大数据分析处理结果的价值性和可用性。大数据应用对大数据的分析处理具有引导作用。项目2任务一【知识链接】
CentOS系统安装5项目2任务一【任务实施】可以通过官网(/download/)选择合适的版本下载。请下载一个镜像后通过虚拟机安装一个CentOS系统。
R语言初体验6项目2任务一【任务实施】通过R语言的官网(/bin/windows/base/)下载Windo
文档评论(0)