2016.07大数据的技术环节与平台建设2.0分析.ppt

2016.07大数据的技术环节与平台建设2.0分析.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2016.07大数据的技术环节与平台建设2.0分析

数据管理 数据管控,是为解决数据标准管理、元数据管理、数据质量管理、数据服务管理、数据安全管理等问题。 存储、安全防护与交易是数据管理的重要环节 目前,大数据行业的存储多依托于云存储技术,将海量数据保存在云端,既能够降低数据存储成本,又能够提高数据处理效率。 但目前我国网络安全形势严峻,存储于云端的数据还需进行安全防护。 此外,随着数据的爆发式增长及数据价值越来越得到凸显,行业内逐渐产生了一种新的商业模式,即数据分享与交易平台,通过搭建数据共享、交换、交易平台,为数据资源供给方和需求方提供便捷的交易环节和服务。 存储与安全两项服务相辅相成,通用型与数据专业型企业并存 传统的线下存储方式因其高昂的成本渐渐转向云存储。 目前国外提供数据存储服务的企业有Nimble Storage、Qumulo等,还有同时提供存储与安全两项服务的企业如Cloudera等。 Nimble Storage是一家数据存储解决方案供应商,其自适应闪存平台能够提供广泛的应用场景支持,同时还能够根据用户需求用户调整闪存策略,选择全闪存方式或者混合式存储服务。 大数据平台的建设 第 二 农业大数据HADOOP基础平台 运用HADOOP2.0和Spark技术,搭建农业大数据HADOOP基础平台,支撑分布式内存分析引擎、分布式机器学习引擎、分布式实时在线数据引擎和流处理引擎的功能实现。 分布式内存分析引擎 在语法上,兼容Hive QL、SQL,支持控制流、函数、存储过程; 在存储上,支持堆外列存、支持索引、支持在SSD上建列存、支持对Hyperbase/HBase进行高效SQL运算; 在访问上,支持JDBC/ODBC接口、支持R语言,同时提供多种常用的数据挖掘和机器学习的并行算法; 同时,支持安全认证、授权和访问控制,稳定支持100GB以上到数十TB的数据,支持IBM Cognos,SAS,OBIEE, SAP BO等BT工具。 分布式机器学习引擎 统计库,是一个并行化的高性能算法库,可以用于对数据进行去噪、去缺省/异常值、归一化、统计分布等,是及其学习或数据挖掘的基础工具包; 机器学习库,是一个并行化的高性能机器学习算法库,包含分类、聚类、预测、推荐等机器学习算法; R语言/R Studio,强大的主流数据统计和绘图语言R以及Web图形化开发界面R ; 完整的解决方案支持,提供文本分析、风险分析、故障检测等行业解决方案。 分布式实时在线数据引擎 建立在Apache HBase基础之上,融合了多种索引技术、分布式事务处理、全文实时搜索、图形数据库在内的实时NoSQL数据库; 高效地支持在线OLTP应用、高并发OLAP应用、批处理应用、全文搜索或高并发图形数据库检索应用,其结合分布式内存分析引擎高; 高效地创建可扩展在线运营数据库(Operational Database)或者实时分析型数据库(ODS - Operational Data Store)。 流处理引擎 接口层提供Scala、Java API以及SQL编程接口; 计算层使用Spark 作为计算引擎; 存储层可以支持往Holodesk以及分布式实时在线数据引擎录入数据; 可以满足实时计算分析的需求。 参考学习培训 第 三 CDA CPDA CPDA THANK YOU * 大数据的技术环节与平台建设 大数据产业链 目 录 一、大数据的技术环节 二、大数据的平台建设 三、参考学习培训 大数据的技术环节 第 一 数据特征 数据的特征 简单来说就是数据库。比如企业ERP、财务系统。 结构化数据 A B C 它是结构化的数据,但是结构变化很大。因为我们要了解数据的细节所以不能将数据简单的组织成一个文件按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应。 半结构化数据 像图片、声音、视频等等。这类信息无法直接知道他的内容,数据库也只能将它保存在一个BLOB字段中。一般的做法是,建立一个包含三个字段的表(编号 number、内容描述 varchar(1024)、内容 blob)。引用通过编号,检索通过内容描述。 非结构化数据 点击此处添加标题 大数据的技术环节 数据采集 信息化技术的发展使得数据被物联网及互联网记录并应用 物联网数据多指通过连接网络的传感器所采集的环境数据。 互联网数据则多指由用户使用电脑、智能手机、平板电脑等不同联网终端所产生的基本信息与行为数据。 传感器是物联网数据的重要采集方法 安装在物联网上的传感器是大数据时代获取环境数据的重要采集方法之一,拥有数据来源范围广、数据准确度高、传输稳定等特点。 App数据抓取成为互联网数据主要采集方式之一 随着智能终端的不断普及,App成为继网站之后了解用户在互联网上的信息与行为的又一重要数据来源。目前国内外通过App抓取用户在互联网上行为

文档评论(0)

441113422 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档