大数据研究现状及热点应用介绍+051256.ppt

下载文档 降价啦

8
0
约1.35万字
约 57页
2017-05-08 发布于贵州
举报
版权申诉
保障服务

大数据研究现状及热点应用介绍+051256.ppt

1、本文档共57页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据研究现状及热点应用介绍051256

* 六、大数据的技术架构企业大数据应用模式-混合架构 MPP-DB MPP-DB 架构模式：Hadoop + MPP RDB /SMP RDB；处理方式：Hadoop处理非结构化，为辅；RDB处理结构化，为主；非结构化：Hadoop方案，对服务器和存储无特殊要求，廉价为主；结构化： MPP RDB /SMP RDB +Hadoop（只负责存储计算需做重大修改）或用新分布式文件系统来替代，对计算和存储有要求（可靠性，高性能，增值应用等） * 六、大数据的技术架构信息源 MES 设备工程 ERP 视频数据 HSE 电子商务实时数据库质量数据管理知识和模型库文档报表交互式分析灵活组态 . . . 交互可视化分析实时智能分析在线质量分析效益与成本分析投入产出预测能源结构分析设备预警维护工艺指标分析移动智能帧视频主动式规则文本模型机理模型经验模型 ··· 神经网络模型搜索线性判别分析 . . . Hadoop 非结构化数据知识搜索文本挖掘趋势和模式检测上下文抽取 . . . 挖掘模型算法模型 Text Energy Entity Extraction 生产质量设备销售 HSE 工程把大数据分析平台与关系数据库结合起来，各取所长，支持业务系统的各类分析应用。同时，采用云计算搭建环境，保证资源动态分配，软件部署弹性可扩展。 ODS 供应链优化模型校正文本类数据多媒体图片文档数据库 HTML XML 函数拟合经验公式数字降噪算法库 * 六、大数据的服务器配置类型数量名称配置 IP 安装内容备注分布式应用 3 MR-Pig 主频2.4G 内存16G 硬盘500G 192.168.4.1 MR系统、Pig系统两个系统共用一台机器 Hive-Chukwa 192.168.4.2 Hive系统、Chukwa系统两个系统共用一台机器 MySQL 192.168.4.3 MySQL数据库系统存放Hive系统和Chukwa系统的元数据信息 HDFS集群主节点 2 NameNode 192.168.1.1 HDFS系统 ? JobTracker SecondNameNode 192.168.1.2 同时作为 SecondNameNode HDFS集群从节点 3 DataNode1 192.168.1.3 ? DataNode2 192.168.1.4 ? DataNode3 192.168.1.5 ? HBase集群主节点 1 HMaster 192.168.2.1 HBase系统 ? HBase集群从节点 1 HRegionServer 192.168.2.2 ? ZooKeeper集群 1 ZooKeeper 192.168.3.1 Zookeeper系统 ? 11台服务器构成的大数据分析平台序号类型软件名称版本 1 虚拟机 Java JDK 1.7 for Linux 2 分布式系统 Hadoop 0.20.0 3 Hbase 0.90.3 4 Zookerper 3.3.3 5 分布式应用 Pig 0.9.0 6 Hive 0.7.1 7 Chukwa 0.4.0 8 数据库系统 MySQL for Linux 5.1.63 1 硬件安装 2 软件版本 * * * * * * 二、大数据的技术实现 * Hadoop是个体系 HIVE Big Data Applications Pig! Zoo Keeper SQL RAW 二、大数据的技术实现 * 大数据处理的平台解决方案传统并行计算架构并行计算 + 分布式存储运算储存传统储存架构计算与存储一体，计算向数据靠拢，高效专用存储模式为程序员屏蔽通性、并发、同步与一致性等问题任务之间无依赖(share-nothing)，具有高系统延展性 (scale-out)。二、大数据的技术实现 * Hadoop VS RDBMS RDBMS Hadoop 资料量 GB - TB TB - PB 存取方式交互式与批次批次数据更新多次读写一次写, 多次读数据结构固定 schema 无 schema 资料一致性高 (ACID) 低扩充性非线性线性二、大数据的技术实现 * Hive – SQL like Hadoop Database Driver (compiler, optimizer, executor) metastore Data Node Data Node Data Node Data Node Hadoop Cluster M/R M/R M/R M/R Web UI CLI JDBC ODBC Create M/R Job 二、大数