大数据汇报内部精华版课堂.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1 ? 大数据从何而来,互联网技术发展现状? ? 什么是大数据、云计算与大数据有什么 关系、大数据类型? ? 大数据如何获取、存储、处理、分析的 技术? ? 大数据怎么用、未来发展趋势? Question 2 互联网发展趋势 3 2020/4/4 4 风云变幻中 …… 4 5 2020/4/4 6 1. 大数据 (Big Data) 所谓“大数据”( big data )指的是这样一种现象:一个公司日常运营所生成和积累用户 行为数据“增长如此之快,以至于难以使用现有的 数据库管理 工具来驾驭,困难存在于数 据的 获取 、 存储 、 检索 、 共享 、 分析 和 可视化 等方面。”这些数据量是如此之大,已经不 是以我们所熟悉 G 或 T 为单位来衡量,而是以 P 、 E 或 Z 为计量单位,所以称之为大数据。 6 大数据的 4V 特性 体量 Volume 多样性 Variety 价值密度 Value 速度 Velocity 非结构化数据 的超大规模和增长 总数据量的 80~90% 比结构化数据增长快 10 倍到 50 倍 是传统数据仓库的 10 倍到 50 倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能 Vs 传统商务智能 ( 咨询、 报告等) 实时分析 而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效 7 2. 什么是云计算? 云计算 将计算任务分布在大量计算机构成的资源池上,是各种应用系统能够根据需 要获取计算力、存储空间和各种软件服务。 云计算的“云”就是存在于 互联网上的服务器集群上的资源 ,它包括硬件资源(服 务器、存储器、 CPU 等)和软件资源(如应用软件、集成开发环境等)本地计算机只需 要通过互联网发送一个需求信息,远端就会有成千上万的计算机为你提供需要的资源并 将结果返回本地计算机。 Grid Server Grid Server Grid Server Grid Server 邮件服务器 移动终端 移动终端 PC 用户 邮件服务器 To Other Grid Nodes To Other Grid Nodes PC 用户 PC 用户 ASG Server ASG Server ASG Server ASG Server ASG Server ASG Server ASG Server ASG Server ASG Server 8 9 3. 大数据类型:结构化与非结构化数据 数据模型: ? 结构化数据:二维表(关系 型) ? 半结构化数据:树、图 ? 非结构化数据:无 结构化数据:先有结构、再有 数据 半结构化数据:先有数据,再 有结构 10 虚拟数据库 信息管理系统( HIS ) 电子病历 2020/4/4 销售管理系统 11 关系数据库曾经是万能的 关系数据模型 CRM 客户关系管理 实时监控平台 远程监护平台 11 12 MapReduce BigTable GFS Chubby Google 大数据处理技术 作用: - 成本降低,能用 PC 机,不用大型机和高端存储 - 软件容错硬件故障视为常态,通过软件保证可靠性 - 简化并行分布式计算,无须控制节点同步和数据交换 - Google 文件系统 GFS(Google File System) - 并行数据处理 MapReduce - 结构化数据表 BigTable - 分布式锁管理 Chubby 13 技术变革 云计算:把集中的运算分散开来 物联网:把分散的设备连在一起 Hadoop :把大数据切成小模块 14 大数据处理技术 —— Hadoop ? 开源 Apache 项目,灵感来源于 Google 的三篇论文: BigTable 、 MapReduce 、 GFS ; ? Hadoop 核心组件包括: - 分布式文件系统( HDFS ) - 分布式数据库存储系统( Hbase ) - 分布式计算构架( MapReduce ) ? 使用 Java 编写 ? 运行平台: Linux 15 16 HDFS 体系架构 HDFS : - 分布式文件存储系统 ,存储海量的数 据; - 数据冗余,硬件容错; - 流式的数据访问; - 存储大文件 ; - 适合数据批量读写,吞吐量高;适 一次写入,多次读取,顺序读写。 - 不适合交互式应用,低延迟很难 满足不支持多用户并发写相同文件。 HDFS 分布式文件系统 17 18 大数据系统 整体架构 19 Data Value : 数据挖掘与分析 数据挖掘 是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其 中的、人们事先不知

文档评论(0)

ailuojue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档