- 31
- 0
- 约1.06万字
- 约 76页
- 2023-04-13 发布于浙江
- 举报
4/12/20231大数据基础知识授课教师:白琰冰中国人民大学统计学院
4/12/202322.1 大数据基本知识介绍2.2 Hadoop和Spark基本知识2.3 在阿里云服务器安装和配置Hadoop和Spark2.4 Linux基本知识课程目录
4/12/202332 .1 大数据基本知识介绍什么是大数据大数据的三个v大数据概念和术语大数据处理系统Apache Spark 框架的特性Apache SparkSpark 部署方式
什么是大数据大数据是一个术语,是传统数据处理软件难以处理的复杂数据集,大数据应用是热点研究问题。这不是大数据的唯一定义,因为项目、供应商、从业者和业务专业人士使用它的方式各异。大数据的核心是数据存储与管理、数据处理与分析,可以归结为分布式存储和分布式处理。Spark、Hadoop 都是处理分布式计算问题的大数据处理系统。Spark于 2009 年开始发展,2015 年之后如日中天。
大数据的三个v体量(Volume): 数据的大小多样性(Variety): 不同的来源和格式速度(Velocity): 数据的速度
大数据概念和术语集群计算: 多台机器的资源集合。并行计算: 把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给多个计算机进行处理,最后把这些计算结果综合起来得到最终的结果。分布式计算: 并行运行的节点 (网络计算机)
您可能关注的文档
- 舒放-公务员制度教程(第六版)007第七章.pptx
- 舒放-公务员制度教程(第六版)009第九章.pptx
- 舒放-公务员制度教程(第六版)010第十章.pptx
- 舒放-公务员制度教程(第六版)011第十一章.pptx
- 舒放-公务员制度教程(第六版)012第十二章.pptx
- 舒放-公务员制度教程(第六版)013第十三章.pptx
- 舒放-公务员制度教程(第六版)014第十四章.pptx
- 舒放-公务员制度教程(第六版)015第十五章.pptx
- 舒放-公务员制度教程(第六版)016第十六章.pptx
- 舒放-公务员制度教程(第六版)017第十七章.pptx
- 康复护理中的营养支持技术.pptx
- 批次03-04_2025-2026学年苏州市七年级语文下册期末质量检测原创仿真模拟试卷第001套.docx
- 批次03-03_2026届上海市闵行区六年级英语小升初分班考试模拟试卷第001套.docx
- 水域救援指南..docx
- 批次03-05_2026届成都市高一历史学业水平合格性考试原创仿真模拟试卷第001套.docx
- 批次03-01_2026届广州市白云区六年级数学小升初分班考试模拟试卷第001套.docx
- 批次03-02_2026届广州市越秀区八年级生物学业水平考试考前仿真模拟试卷第001套.docx
- 27_2026杭州新七年级英语暑假衔接学情诊断A卷.docx
- 2025-2026学年吉林省长春市第七十二中学八年级(下)期中道德与法治试卷(含答案).docx
- 2025-2026学年江苏省苏州市振华中学七年级(下)期中道德与法治试卷(含答案).docx
原创力文档

文档评论(0)