大数据科学与工程系列课件.pptxVIP

下载本文档

17
0
约1.31万字
约 98页
2021-06-03 发布于河北
举报
版权申诉

大数据科学与工程系列课件.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

陈志成中国科学院大学 2014年06月大数据科学与工程系列大数据体系结构主要内容一、大数据时代的新命题二、大数据的体系结构三、大数据的关键技术四、物联网与云计算架构五、知名企业大数据架构六、大数据系统设计案例总结、交流、作业一、大数据时代的新命题谷歌大数据中心：全球主要DC有8个大数据表象概念：百度数据规模大数据表象概念：对系统要求大数据时代的新命题:数据在爆炸式增长－互联网海量大数据－物联网各类型数据发数据处理能力要求提高－大规模数据存取方式－大数据并行技术能力数据间关联性分析加强－社交网络关系－多业务关联性－用户行为分析网络数据的实时同步－一切营销都线下＋线上－多业务跨地域数据同步“数据结构化”本身是最具挑战性的一个环节.海量数据与快速处理是一对悖论.信息时代的大数据需求信息社会需求：信息化-智能化-现代化人力工具 -- 镰刀 -- 锄头动力工具 -- 机车 -- 机床智能工具--推理机--智能网工业社会农业社会信息社会信息时代数据大爆炸，推动智能技术发展信息时代，软件编程模型发展“面向信息处理”的智能化编程模型，编程简化为数据配置与管理大数据＋技术架构?数据智能二、大数据的系统架构传统数据库技术架构:Oracle数据库体系架构大数据架构：分层架构从数据在生命周期看，大数据从数据源经过分析挖掘到最终获得价值需要经过5个环节，包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。大数据的系统架构：整体系统架构新一代编程语言大数据架构：整体逻辑功能架构大数据架构理解：搜索引擎大数据架构理解：网页内容抓取大数据系统架构HadoopHadoop分布式系统组成大数据系统架构Hadoop在图中，Hadoop主要的功能组件有：Hadoop Common: 包含HDFS、MapReduce和其他项目公共内容；HDFS：Hadoop分布式文件系统；MapReduce：一个用于并行处理大数据集的软件框架。Map 函数接受一组数据并将其转换为一个键/值对列表，输入域中的每个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表，然后根据它们的键（为每个键生成一个键/值对）缩小键/值对列表；HBase: 类似Google BigTable的分布式NoSQL列数据库；Hive：是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行；Zookeeper：分布式锁，提供类似Google Chubby的功能；Avro：新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制；Pig：大数据数据流分析平台，为用户提供多种接口；Sqoop：在HADOOP与传统的数据库间进行数据的传递。大数据系统架构Hadoop：功能定位1.大数据系统架构Hadoop：层次对应大数据：分布式计算架构大数据架构: MapReduce工作原理1大数据架构: MapReduce工作原理2三、大数据的关键技术大数据关键技术到底有哪些？核心问题是：(计算、存储、分析)算法大数据：恐怖的大数据(生活示例)智能性：数据分析、自然语言理解逻辑推理(演示)艺术性：分形算法、视频动画(演示)大数据关键技术1：大数据存储技术数据的海量化和快增长特征、以及数据格式的多样化是大数据对存储技术提出的首要挑战。要求底层硬件架构和文件系统在性价比上要大大高于传统技术，并能够弹性扩展存储容量。谷歌文件系统（GFS）和Hadoop 的分布式文件系统HDFS（Hadoop Distributed File System）奠定了大数据存储技术的基础。GFS/HDFS 将计算和存储节点在物理上结合在一起，从而避免在数据密集计算中易形成的I/O 吞吐量的制约，同时这类分布式存储系统的文件系统也采用了分布式架构，能达到较高的并发访问能力。网络附着存储系统（NAS）和存储区域网络（SAN）等体系，存储和计算的物理设备分离，它们之间要通过网络接口连接，这导致在进行数据密集型计算（Data Intensive Computing）时I/O 容易成为瓶颈。单机文件系统不提供数据冗余、可扩展性、容错及并发能力差大数据关键技术2：并行计算能力大数据的分析挖掘是数据密集型计算，需要巨大的计算能力。针对不同计算场景发展出特定分布式计算框架。 Yahoo 提出的S4 系统、Twitter 的Storm,谷歌2010 年公布的Dremel系统， MapReduce内存化以提高实时性的Spark 框架. 苦恼: 淹没在数据中 ; 不能制定合适的决策! 决策数据知识金融经济政府POS.人口统计生命周期模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销