大数据分析平台的应用.pptx

下载文档 降价啦

1739
0
约6.68千字
约 36页
2017-08-16 发布于浙江
举报
版权申诉
保障服务

大数据分析平台的应用.pptx

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据分析平台的应用柯莱特大数据业务能力 2 大数据开发及运行环境大数据日志分析系统零售行业商业运营指标分析（BI）智能供应链分析个性化推荐系统互联网金融征信大数据平台架构图 HBase 列族数据库 HDFS 分布式文件系统 Hive 数据仓库 Pig分析工具数据层 Storm内存流式计算框架 Hadoop MapReduce计算框架 Spark 并行计算框架计算层运营分析日志分析引擎层 Oracle 点击流日志其他数据接口 MySQL SQL Server 抽取层分布式数据库数据推送数据库 Flume Sqoop 序列化配置管理文件系统分布式缓存 ETL清洗外部数据接口结构化业务数据、机器数据半结构化数据、机器数据 NoSQL数据库（图数据库）权限管理任务管理监控管理数据管理运维管理运维管理接口管理可视化数据展现个性化推荐供应链分析算法库机器学习互联网金融征信第一步，数据抽取并存储 4 Oracle 点击流日志其他数据接口 MySQL SQL Server 分布式数据库 Flume Sqoop 序列化 ETL清洗 HDFS 分布式文件系统结构化数据半结构化 / 非结构化数据结构化数据，通过两种途径抽取并存放到HDFS分布式文件系统中：能够序列化的数据，直接存放到HDFS中；不能够序列化的数据，通过数据整理后统一存放在分布式数据库环境中，再经过序列化后再存放到HDFS中，经整理后还不能序列化的数据也直接存放到HDFS中；半结构化和非结构化数据：各种日志数据（通常序列化半结构化数据）直接存放到HDFS中；点击流和数据接口中的数据（通常序列化半结构化数据）直接存放到HDFS中；非结构化的数据直接存放到HDFS中； NoSQL 数据处理 5 Oracle MySQL SQL Server 分布式数据库 Flume Sqoop ETL数据处理结构化数据数据处理要解决的问题：重复的数据处理缺失的数据处理格式不统一的数据处理检查数据逻辑错误需要进行计算的数据处理数据处理包括数据清洗、数据转化、数据提取、数据计算等处理方法。数据处理最基本的目的是从大量杂乱无章、难以理解的数据中，抽取并推导出对解决问题有价值、有意义的数据。数据处理对收集到的数据进行加工整理，形成适合数据分析的样式，是数据分析前必须经历的过程。数据清洗数据转换数据提取数据计算第二步，数据规划 6 HBase 列族数据库 HDFS 分布式文件系统 Pig分析工具 Hive数据仓库数据层 NoSQL数据库数据集市 Hadoop HDFS分布式文件系统中存放海量的结构化和半结构化数据，需要合理化组织数据的存储：相关业务结构化数据和有一定格式关系的半结构化的数据存放在Hadoop Hive数据仓库中，并根据业务需求，根据特定的业务主题进行数据集市的构建；相关业务中半结构化的数据直接存放在HDFS分布式文件系统中，一定格式关系的半结构化数据存放在Hadoop HBase列族数据库中和其他NoSQL数据库中； Hadoop Hive 数据仓库电商业务运行指标业务主题数据集市物品相关性分析业务主题第三步，大数据计算框架 7 Storm实时大数据分析：一个分布式的、容错的、实时的内存流式计算系统； Hadoop离线大数据分析：大数据离线批处理系统，大量离线数据计算MapReduce； Spark并行大数据计算：Hadoop MapReduce的通用的并行计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。适用于离线的大数据统计分析适用于大数据并行计算、实时分析针对查询分析的实时性和延时需求，可选择不同的大数据计算框架构建查询分析业务： Storm内存流式计算框架 Hadoop MapReduce计算框架 Spark 并行计算框架计算层算法库机器学习第四步，大数据分析引擎 8 行业业务属性决定计算的逻辑，计算数学是实现计算逻辑的方法（利用数学领域的算法和理论）数据分析不仅仅指运算数据，还包括全面了解数据分析所处的背景和环境数据分析结果可以保存在多种结构中数据也可以在不同的分布式集群之间进行传输、复制、同步数据分析结果可以通过多种展现形式（表格、各种展现图）进行数据展现行业属性 + 算法 = 业务数据分析引擎（帮助用户自动化分析大数据）基础设施数据引擎（机器数据引擎、日志数据引擎）运营分析引擎层数据推送数据库文件系统分布式缓存

您可能关注的文档

文档评论（0）

智慧IT + 关注: 实名认证

内容提供者

微软售前技术专家持证人

生命在于奋斗，技术在于分享！

咨询Ta 进入空间

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

更多 >

大数据分析平台的应用.pptx