企业大数据分析的应用平台及其实现.docVIP

下载本文档

14
0
约2.9千字
约 7页
2018-10-12 发布于福建
举报
版权申诉

企业大数据分析的应用平台及其实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

企业大数据分析的应用平台及其实现

企业大数据分析的应用平台及其实现　　摘要：企业在大数据时代对数据分析有更高的要求。本文使用开源大数据生态系统，构建了一个能够满足企业对数据的分析要求且整体造价不高的系统平台。该平台涵盖从大数据采集、存储、分析和利用等全部过程。　　关键词：大数据；开源软件；企业系统平台　　一、引言　　企业的信息系统，记录和保存着企业已经发生的业务信息。对这些数据进行分析，我们可以了解企业发生了什么，为什么会这样，并可以对未来进行预测，据此采取一些干预性措施，实现企业远期的战略目标。大数据时代，不仅需要对企业信息系统中的数据进行分析，还需要公开收集或购买一些相关领域的数据，进行更为全面的数据分析，才能把握住企业的未来发展方向。正因为数据分析对企业的商业发展举足轻重，因此大数据分析平台成为企业重点关注的基础设施。　　本文基于开源软件，实现了一个企业大数据分析应用平台。　　二、企业大数据分析应用平台的总体架构　　基于开源软件的企业大数据分析应用平台，其总体架构如图所示，一共分四层：数据源层、数据存储层、大数据分析处理层和大数据应用层。　　数据源层主要负责收集企业大数据分析所需要的基础数据。企业业务系统数据，从时间的角度，可以分为实时性要求不高的批处理数据和对实时性要求比较高的流式数据。在大数据时代，除了要分析企业本身的经营数据，还需要对与本企业所属行业和相关行业的公开数据进行分析。因而在这一层需要通过网络爬虫，在互联网上公开收集的数据。有时候无法通过互联网公开获取本行业及相关行业的数据，还需要购买一些专业的数据，来满足企业在数据方面的需要。　　数据存储层对来自不同数据源的数据，进行安全可靠地存储。在本层，我们基于数据湖的概念进行设计实现。传统上的数据存储是基于写模式的，也就是说，在存储数据的时候，只存储预定模式的数据，不满足模式的数据在存储时被丢弃，无法完全存储能够采集到的全部数据。数据湖存储技术是基于读模式的，在存储数据时，所有原始采集获得的数据，原封不动地保存在存储系统中，当需要对这些数据进行分析时，才会根据分析的需要，从数据湖中抽取所需要的数据。数据湖存储技术相对于传统存储技术，好处显而易见。基本上，采用数据湖存储技术，没有原始数据的丢弃，可以满足企业数据分析在未来的各种需要。采用数据湖技术实现企业的大数据存储，要求系统的存储是可以横向扩展的，当采集到的数据增加时，可以在系统中添加更多的存储计算机来满足要求，从成本上让企业可以负担得起，而不需要像昂贵的垂直扩展技术那样，更换整个存储系统来满足数据存储的要求。　　在大数据分析处理层，我们采用SQL技术来对数据湖中的数据进行交互式大数据分析；对实时性要求高的分析，采用流式数据分析技术。根据需要可以使用现成的数据挖掘和机器学习算法库，来对企业保存在数据湖中的数据进行分析。　　大数据应用层是企业大数据的价值体现。在这一层，企业可以获得各种经营所需要的报表以及各种决策支持建议。采用数据可视化技术，可以更为直观地让企业人员使用大数据分析的结论，实现企业的经营目标。　　三、企业大数据分析应用平台的开源技术实现　　1.数据存储层的实现　　基于数据湖概念的大数据存储层的技术实现，可以采用开源大数据生态系统Hadoop来构建存储集群。Hadoop集群系统采用普通的PC服务器来集成，因此具有成本低廉的特点，企业在经济上完全可以负担得起。Hadoop集群从设计之初就考虑了集群中单台服务器容易发生故障的问题，也就是说，在Hadoop集群中发生服务器故障是家常便饭，Hadoop集群具有高可用性的特点，可以满足企业的生产要求。　　在数据存储层，我们主要使用Hadoop文件系统HDFS和Hadoop数据库Hbase这两个组件来实现。　　HDFS是以Google公司的GFS为原型设计出来的一个开源分布式文件系统。HDFS文件系统的块大小可以是64MB，128MB或者256MB，因此特别适合用来存储大数据文件，不适合用来存储小文件。对HDFS上的文件主要是顺序读，不支持随机读写，虽然可以支持在文件的尾部进行追加写。　　由于HDFS文件系统不是完整意义上的POSIX文件系统，不支持文件的随机读写。因此在数据存储层的实现上，还采用HBase来弥补这方面的缺陷。虽然HBase也是存储在HDFS之上，但是因为采用了日志结构合并树（Log Structure Merge-tree），因而HBase支持对数据按行键随机读写。　　来自数据源层的实时数据，通过开源Kafka系统存储在企业数据湖之中，并由大数据分析层进行实时分析。对于批处理用到的数据，可以使用开源ETL工具Sqoop或者Kettle，将数据从业务系统抽取到数据湖中。爬虫系统，可以采用开源的爬虫引擎Nutch