《大数据导论》复习资料.pdfVIP

  • 2
  • 0
  • 约2.71万字
  • 约 33页
  • 2024-03-13 发布于四川
  • 举报

《大数据导论》课程期末复习资料

《大数据导论》课程讲稿章节目录:

第1章大数据概述

(1)大数据的概念

(2)大数据的特征

(3)大数据的数据类型

(4)大数据的技术

(5)大数据的应用

第2章大数据采集与预处理

(1)大数据采集

(2)大数据预处理概述

(3)数据清洗

(4)数据集成

(5)数据变换

(6)数据规约

第3章大数据存储

(1)大数据存储概述

(2)数据存储介质

(3)存储系统结构

(4)云存储概述

(5)云存储技术

(6)新型数据存储系统

(7)数据仓库

第4章大数据计算平台

(1)云计算概述

(2)云计算平台

(3)MapReduce平台

(4)Hadoop平台

(5)Spark平台

第5章大数据分析与挖掘

(1)大数据分析概述

(2)大数据分析的类型及架构

(3)大数据挖掘

(4)大数据关联分析

(5)大数据分类

(6)大数据聚类

(7)大数据分析工具

第6章大数据可视化

(1)大数据可视化概述

(2)大数据可视化方法

(3)大数据可视化工具

第7章社交大数据

(1)社交大数据

(2)国内社交网络大数据的应用

(3)国外社交网络大数据的应用

第8章交通大数据

(1)交通大数据概述

(2)交通监测应用

(3)预测人类移动行为应用

第9章医疗大数据

(1)医疗大数据简介

(2)临床决策分析应用

(3)医疗数据系统分析

第10章大数据的挑战与发展趋势

(1)大数据发展面临的挑战

(2)大数据的发展趋势

一、客观部分:(单项选择、多项选择)

(一)、单项选择

1.以下不是NoSQL数据库的是()

A.MongoDB

B。HBase

C.Cassandra

D。DB2

★考核知识点:NoSQL与NewSQL主流系统

参考讲稿章节:3.7

附1.1。1(考核知识点解释):

目前市场上主要的NoSQL数据存储工具有:BigTable、Dynamo、Hbase、

MongoDB、CouchDB、Hypertable

还存在一些其他的开源的NoSQL数据库,Neo4j、OracleBerkeleyDB、Apache

Cassandra等

另外,NewSQL数据库。例如:GoogleSpanner、VoltDB、RethinkDB、Clustrix、

TokuDB和MemSQL等.

2以下不是目前主流开源分布式计算系统的是()

A。Azure

B。Hadoop

C。Spark

D.Storm

★考核知识点:主流开源分布式计算系统

参见讲稿章节:4。2

附1。1。2:(考核知识点解释)

由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司

只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。

Yahoo的工程师DougCutting和MikeCafarella在2005年合作开发了分布式计算

系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会

的开源项目.Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS

分布式文件系统,根据BigTable开发了HBase数据存储系统.尽管和Google内部

使用的分布式计算系统原理相同,但是Hadoop在运算速度上依然达不到Google

论文中的标准.不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国

际标准。Yahoo,Facebook,Amazon以及国内的百度、阿里巴巴等众多互联网公司

都以Hadoop为基础搭建自己的分布式计算系统。

Spark也是

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档