- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据分析平台系统开发
大数据分析平台系统开发公司马小姐
1、搭建大数据平台离不开 BI 。在大数据之前, BI 就已经存在很久了,简单把大
数据等同于 BI ,明显是不恰当的。但两者又是紧密关联的,相辅相成的。 BI 是
达成业务管理的应用工具,没有 BI ,大数据就没有了价值转化的工具,就无法
把数据的价值呈现给用户, 也就无法有效地支撑企业经营管理决策; 大数据则是
基础,没有大数据, BI 就失去了存在的基础,没有办法快速、实时、高效地处
理数据,支撑应用。 所以,数据的价值发挥,大数据平台的建设,必然是囊括了大数据处理与 BI 应用分析建设的。
2、大数据拥有价值。 来看看数据使用金字塔模型,从数据的使用角度来看,数据基本有以下使用方式:
自上而下,可以看到,对数据的要求是不一样的:
数据量越来越大,维度越来越多。
交互难度越来越大。
技术难度越来越大。
以人为主,逐步向机器为主。
用户专业程度逐步提升,门槛越来越高。
企业对数据、 效率要求的逐步提高, 也给大数据提供了展现能力的平台。 企业构建大数据平台, 归根到底是构建企业的数据资产运营中心, 发挥数据的价值, 支撑企业的发展。
整体方案思路如下:
建设企业的基础数据中心,构建企业统一的数据存储体系,统一进行数据建模,
为数据的价值呈现奠定基础。 同时数据处理能力下沉, 建设集中的数据处理中心,提供强大的数据处理能力; 通过统一的数据管理监控体系, 保障系统的稳定运行。有了数据基础,构建统一的 BI 应用中心,满足业务需求,体现数据价值。
提到大数据就会提到 hadoop。大数据并不等同于 hadoop,但 hadoop 的确是最热门的大数据技术。下面以最常用的混搭架构,来看一下大数据平台可以怎么
通过 Kafka作为统一采集平台的消息管理层,灵活的对接、适配各种数据源采集
(如集成 flume ),提供灵活、可配置的数据采集能力。
利用 spark 和 hadoop 技术,构建大数据平台最为核心的基础数据的存储、处理能力中心,提供强 大的数据 处理能力 ,满足数据 的交互 需求。同时 通过sparkstreaming,可以有效满足企业实时数据的要求,构建企业发展的实时指标
体系。
同时为了更好的满足的数据获取需求,通过 RDBMS,提供企业高度汇总的统计数据,满足企业常规的统计报表需求,降低使用门槛。对大数据明细查询需求,则通过构建 HBase集群,提供大数据快速查询能力, 满足对大数据的查询获取需
求。
一般的大数据平台从平台搭建到数据分析大概包括以下几个步骤:
1、Linux 系统安装
一般使用开源版的 Redhat 系统 --CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做 RAID 和挂载数据存储节点的时,需要按情况配置。比如,可以选择给 HDFS的 namenode 做 RAID2以提高其稳定性,将数据存储与操作系统分别放置在不同硬盘上,以确保操作系统的正常运行。
2、分布式计算平台 / 组件安装
当前分布式系统的大多使用的是 Hadoop系列开源系统。Hadoop 的核心是 HDFS,一个分布式的文件系统。 在其基础上常用的组件有 Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。
使用开源组件的优点: 1)使用者众多,很多 bug 可以在网上找的答案(这往往是开发中最耗时的地方) ;2)开源组件一般免费,学习和维护相对方便; 3)开源组件一般会持续更新; 4)因为代码开源,如果出现 bug 可自由对源码作修改维护。
常用的分布式数据数据仓库有 Hive、Hbase。Hive 可以用 SQL查询, Hbase 可以快速读取行。外部数据库导入导出需要用到 Sqoop。Sqoop将数据从 Oracle、MySQL等传统数据库导入 Hive 或 Hbase。Zookeeper 是提供数据同步服务, Impala 是对 hive 的一个补充,可以实现高效的 SQL查询
3、数据导入
前面提到,数据导入的工具是 Sqoop。它可以将数据从文件或者传统数据库导入到分布式平台。
4、数据分析
数据分析一般包括两个阶段:数据预处理和数据建模分析。
数据预处理是为后面的建模分析做准备, 主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到 Hive SQL,Spark QL和 Impala。
数据建模分析是针对预处理提取的特征 / 数据建模,得到想要的结果。如前面所提到的,这一块最好用的是 Spark。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、 TFIDF、协同过滤等,都已经在 ML lib 里面,调用比较方便。
5、结果
原创力文档


文档评论(0)