大数据平台的设计与实现--四川大学研究生答辩ppt课件.ppt

大数据平台的设计与实现--四川大学研究生答辩ppt课件.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据平台的设计与实现--四川大学研究生答辩ppt课件.ppt

. . . . * . . . 答 辩 人: 红军 专 业: *** 指导老师: *** 论文题目:大数据平台的设计与实现 目录 * * 大数据 * 国内 投入 先进 价值 企业 政策 开放慢 有障碍 政府 落后 概念 希望 农业 * 国外 * * 开源-收集 外部网站 文件图片 关系数据库 内部网站 网络爬虫 文本收集 关系数据同步 点击流 nutch flume sqoop piwik * 开源-存储 * 开源-计算 * 开源-工具 ambari 支持数据服务集群的供应、管理和监控。支持应用扩展。 Hive 是面向Hadoop生态系统的数据仓库。支持类SQL语言。 Oozie 管理调度Hadoop任务。 Mahout 基于MapReduce算法库,初步支持spark。 * * 整体业务视图 基础部署/ 配置/监控 管理服务 自动部署服务 应用配置服务 机器/服务/网络监控 报警预警管理 列分存储服务 文件存储服务 关系数据存储 内存存储服务 消息存储服务 数据存 储中心 流式计算 迭代交互计算 密集型计算 数据计算中心 应用服务平台 元数据管理 任务调度 数据可视化 网站埋点 数据接口 用户权限 资源空间 文本收集 关系数据批量收集 关系数据实时收集 点击流收集 移动端收集 网页数据收集 数据录入 数据收集中心 三方系统 数据用户 数据开发 平台管理 平台 开发 平台维护 三方系统 网页 APP DB 服务器 传感器 外部接口 * 场景-工程师 合理分配资源 数据可管可查 算法被合理执行 简单实现可视化 异常问题可知 * 场景-用户 用户查看权限可被管理 查找数据关系描述 数据内容可被搜索 可以查看订阅数据图表 * 场景-系统 获取数据成果 输送数据 数据暂存 数据计算 * * 设计-架构 Flume 文本同步 Sqoop DB 同步 实时DB同步 PIWIK点击流收集 移动收集SDK 分布式 爬虫 spark Map-reduce storm hive hbase phoenix 元数据管理 任务调度服务 数据可视化服务 埋点服务 数据搜索服务 数据接口服务 自动抽取 用户权限资源管理 服务器管理 自动部署服务 应用配置服务 应用监控服务 预警报警系统 * 设计-部署 * 大数据平台 大数据平台 大数据平台 农业大数据平台的研究与设计 大数据平台 农业大数据平台的研究与设计 大数据平台 农业大数据平台的研究与设计 大数据平台 农业大数据平台的研究与设计 大数据平台 农业大数据平台的研究与设计 大数据平台 农业大数据平台的研究与设计 大数据平台 农业大数据平台的研究与设计 大数据平台 农业大数据平台的研究与设计 大数据平台 农业大数据平台的研究与设计 大数据平台 农业大数据平台的研究与设计 * . . . 1、大数据起源(美国独立战争后人口普查)-大数据快速发展(80年代的美国)-大数据的全球发展(21世纪初大数据技术) 2、大数据概念:是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长和多样化的信息资产 5EB:说话总和;2020:IDC 40ZB:40万亿GB,地球沙子的57倍(2012);物联网、车联网 每年600ZB 文本、音频、图片、视频、模拟信号、传感器; 强子对撞机、电商11.11、传感器,数据时效性、云计算 寻找相关关系,数据质量差、量大价值低 * . 金融互联网-大投入、先进的技术,从数据中获取价值-电商金融通过数据获取价值 政策多、数据开放慢、障碍-各级政府和机构认为设置障碍 农业,信息化落后,信息严重不对称, 零星的企业和机构着力农业、概念大于实际应用、希望-卫星遥感 * . 技术:先进的大数据技术hadoop、spark、storm、zookeeper等 开放:数据开放共享、技术开放开源、心态开放 政策:政策给你 * . 大数据是一场革命一场变革,比互联网+更有意义。他让所有人关注数据。人工智能、智慧城市、智慧工厂、宇宙航行。 管理变革需要很多的技术的支持,大数据能够兴起并得以广泛的应用达到热潮,来源于开放的心态-开源技术促进了大数据的到来。 * . 介绍基础的大数据开源技术flume、piwik、nutch、sqoop * . Redis:结果:读的速度是110000次/s,写的速度是81000次/s 。分布式的、面向列的开源数据库 kafka * . 有向无环图(DAG)是描述含有公共子式的表达式的有效工具 Spark:适合迭代计算和交互式计算 Mr:是一种离线计算框架,适合数据密集型计算 * . ambari、hive、pig、oozie、zookeeper

文档评论(0)

liuxiaoyu98 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档