大数据研究现状及热点应用介绍+051256.ppt

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据研究现状及热点应用介绍051256

* 六、大数据的技术架构 企业大数据应用模式-混合架构 MPP-DB MPP-DB 架构模式:Hadoop + MPP RDB /SMP RDB; 处理方式:Hadoop处理非结构化,为辅;RDB处理结构化,为主; 非结构化:Hadoop方案,对服务器和存储无特殊要求,廉价为主; 结构化: MPP RDB /SMP RDB +Hadoop(只负责存储计算需做重大修改)或用新分布式文件 系统来替代,对计算和存储有要求(可靠性,高性能,增值应用等) * 六、大数据的技术架构 信息源 MES 设备 工程 ERP 视频数据 HSE 电子 商务 实时 数据库 质量 数据管理 知识和模型库 文档 报表 交互式分析 灵活组态 . . . 交互可视化分析 实时智能分析 在线质量分析 效益与成本分析 投入产出预测 能源结构分析 设备预警维护 工艺指标分析 移动智能 帧视频 主动式规则 文本模型 机理模型 经验模型 ··· 神经网络 模型搜索 线性判别分析 . . . Hadoop 非结构化数据 知识搜索 文本挖掘 趋势和模式检测 上下文抽取 . . . 挖掘模型 算法模型 Text Energy Entity Extraction 生产 质量 设备 销售 HSE 工程 把大数据分析平台与关系数据库结合起来,各取所长,支持业务系统的各类分析应用。 同时,采用云计算搭建环境,保证资源动态分配,软件部署弹性可扩展。 ODS 供应链优化 模型校正 文本类 数据 多媒体 图片 文档数据库 HTML XML 函数拟合 经验公式 数字降噪 算法库 * 六、大数据的服务器配置 类型 数量 名称 配置 IP 安装内容 备注 分布式应用 3 MR-Pig 主频2.4G 内存16G 硬盘500G 192.168.4.1 MR系统、Pig系统 两个系统共用一台机器 Hive-Chukwa 192.168.4.2 Hive系统、Chukwa系统 两个系统共用一台机器 MySQL 192.168.4.3 MySQL数据库系统 存放Hive系统和Chukwa系统的元数据信息 HDFS集群主节点 2 NameNode 192.168.1.1 HDFS系统 ? JobTracker SecondNameNode 192.168.1.2 同时作为 SecondNameNode HDFS集群从节点 3 DataNode1 192.168.1.3 ? DataNode2 192.168.1.4 ? DataNode3 192.168.1.5 ? HBase集群主节点 1 HMaster 192.168.2.1 HBase系统 ? HBase集群从节点 1 HRegionServer 192.168.2.2 ? ZooKeeper集群 1 ZooKeeper 192.168.3.1 Zookeeper系统 ? 11台服务器构成的大数据分析平台 序号 类型 软件名称 版本 1 虚拟机 Java JDK 1.7 for Linux 2 分布式系统 Hadoop 0.20.0 3 Hbase 0.90.3 4 Zookerper 3.3.3 5 分布式应用 Pig 0.9.0 6 Hive 0.7.1 7 Chukwa 0.4.0 8 数据库系统 MySQL for Linux 5.1.63 1 硬件安装 2 软件版本 * * * * * * 二、大数据的技术实现 * Hadoop是个体系 HIVE Big Data Applications Pig! Zoo Keeper SQL RAW 二、大数据的技术实现 * 大数据处理的平台解决方案 传统并行计算架构 并行计算 + 分布式存储 运算 储存 传统储存架构 计算与存储一体,计算向数据靠拢,高效专用存储模式 为程序员屏蔽通性、并发、同步与一致性等问题 任务之间无依赖(share-nothing),具有高系统延展性 (scale-out)。 二、大数据的技术实现 * Hadoop VS RDBMS RDBMS Hadoop 资料量 GB - TB TB - PB 存取方式 交互式与批次 批次 数据更新 多次读写 一次写, 多次读 数据结构 固定 schema 无 schema 资料一致性 高 (ACID) 低 扩充性 非线性 线性 二、大数据的技术实现 * Hive – SQL like Hadoop Database Driver (compiler, optimizer, executor) metastore Data Node Data Node Data Node Data Node Hadoop Cluster M/R M/R M/R M/R Web UI CLI JDBC ODBC Create M/R Job 二、大数

文档评论(0)

aining + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档