数据科学并行计算-白琰冰-第二章 大数据基础知识.pptxVIP

  • 31
  • 0
  • 约1.06万字
  • 约 76页
  • 2023-04-13 发布于浙江
  • 举报

数据科学并行计算-白琰冰-第二章 大数据基础知识.pptx

4/12/20231大数据基础知识授课教师:白琰冰中国人民大学统计学院 4/12/202322.1 大数据基本知识介绍2.2 Hadoop和Spark基本知识2.3 在阿里云服务器安装和配置Hadoop和Spark2.4 Linux基本知识课程目录 4/12/202332 .1 大数据基本知识介绍什么是大数据大数据的三个v大数据概念和术语大数据处理系统Apache Spark 框架的特性Apache SparkSpark 部署方式 什么是大数据大数据是一个术语,是传统数据处理软件难以处理的复杂数据集,大数据应用是热点研究问题。这不是大数据的唯一定义,因为项目、供应商、从业者和业务专业人士使用它的方式各异。大数据的核心是数据存储与管理、数据处理与分析,可以归结为分布式存储和分布式处理。Spark、Hadoop 都是处理分布式计算问题的大数据处理系统。Spark于 2009 年开始发展,2015 年之后如日中天。 大数据的三个v体量(Volume): 数据的大小多样性(Variety): 不同的来源和格式速度(Velocity): 数据的速度 大数据概念和术语集群计算: 多台机器的资源集合。并行计算: 把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给多个计算机进行处理,最后把这些计算结果综合起来得到最终的结果。分布式计算: 并行运行的节点 (网络计算机)

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档