- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据分析平台的应用
柯莱特大数据业务能力
2
大数据开发及运行环境
大数据日志分析系统
零售行业商业运营指标分析(BI)
智能供应链分析
个性化推荐系统
互联网金融征信
大数据平台架构图
HBase
列族数据库
HDFS 分布式文件系统
Hive
数据仓库
Pig分析工具
数据层
Storm内存流式计算框架
Hadoop MapReduce计算框架
Spark 并行计算框架
计算层
运营分析
日志分析
引擎层
Oracle
点击流
日志
其他
数据接口
MySQL
SQL Server
抽取层
分布式数据库
数据推送
数据库
Flume Sqoop
序列化
配置管理
文件系统
分布式缓存
ETL清洗
外部数据接口
结构化业务数据、机器数据
半结构化数据、机器数据
NoSQL数据库(图数据库)
权限管理
任务管理
监控管理
数据管理
运维管理
运维管理
接口管理
可视化数据展现
个性化推荐
供应链分析
算法库
机器学习
互联网金融征信
第一步,数据抽取并存储
4
Oracle
点击流
日志
其他数据接口
MySQL
SQL Server
分布式数据库
Flume Sqoop
序列化
ETL清洗
HDFS 分布式文件系统
结构化数据
半结构化 / 非结构化数据
结构化数据,通过两种途径抽取并存放到HDFS分布式文件系统中:
能够序列化的数据,直接存放到HDFS中;
不能够序列化的数据,通过数据整理后统一存放在分布式数据库环境中,再经过序列化后再存放到HDFS中,经整理后还不能序列化的数据也直接存放到HDFS中;
半结构化和非结构化数据:
各种日志数据(通常序列化半结构化数据)直接存放到HDFS中;
点击流和数据接口中的数据(通常序列化半结构化数据)直接存放到HDFS中;
非结构化的数据直接存放到HDFS中;
NoSQL
数据处理
5
Oracle
MySQL
SQL Server
分布式数据库
Flume Sqoop
ETL数据处理
结构化数据
数据处理要解决的问题:
重复的数据处理
缺失的数据处理
格式不统一的数据处理
检查数据逻辑错误
需要进行计算的数据处理
数据处理包括数据清洗、数据转化、数据提取、数据计算等处理方法。
数据处理最基本的目的是从大量杂乱无章、难以理解的数据中,抽取并推导出对解决问题有价值、有意义的数据。
数据处理对收集到的数据进行加工整理,形成适合数据分析的样式,是数据分析前必须经历的过程。
数据清洗
数据转换
数据提取
数据计算
第二步,数据规划
6
HBase
列族数据库
HDFS 分布式文件系统
Pig分析工具
Hive数据仓库
数据层
NoSQL数据库
数据集市
Hadoop HDFS分布式文件系统中存放海量的结构化和半结构化数据,需要合理化组织数据的存储:
相关业务结构化数据和有一定格式关系的半结构化的数据存放在Hadoop Hive数据仓库中,并根据业务需求,根据特定的业务主题进行数据集市的构建;
相关业务中半结构化的数据直接存放在HDFS分布式文件系统中,一定格式关系的半结构化数据存放在Hadoop HBase列族数据库中和其他NoSQL数据库中;
Hadoop Hive
数据仓库
电商业务运行指标
业务主题
数据集市
物品相关性分析
业务主题
第三步,大数据计算框架
7
Storm实时大数据分析:一个分布式的、容错的、实时的内存流式计算系统;
Hadoop离线大数据分析:大数据离线批处理系统,大量离线数据计算MapReduce;
Spark并行大数据计算:Hadoop MapReduce的通用的并行计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
适用于离线的大数据统计分析
适用于大数据并行计算、实时分析
针对查询分析的实时性和延时需求,可选择不同的大数据计算框架构建查询分析业务:
Storm内存流式计算框架
Hadoop MapReduce计算框架
Spark 并行计算框架
计算层
算法库
机器学习
第四步,大数据分析引擎
8
行业业务属性决定计算的逻辑,计算数学是实现计算逻辑的方法(利用数学领域的算法和理论)
数据分析不仅仅指运算数据,还包括全面了解数据分析所处的背景和环境
数据分析结果可以保存在多种结构中
数据也可以在不同的分布式集群之间进行传输、复制、同步
数据分析结果可以通过多种展现形式(表格、各种展现图)进行数据展现
行业属性 + 算法 = 业务数据分析引擎(帮助用户自动化分析大数据)
基础设施数据引擎(机器数据引擎、日志数据引擎)
运营分析
引擎层
数据推送
数据库
文件系统
分布式缓存
文档评论(0)