- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于大数据应用系统架构的设计与实现.doc
基于大数据应用系统架构的设计与实现
摘 要
随着我国逐渐进入新世纪互联网时代,人们已经逐渐的从各种数据的使用者和接收者转变成了数据的发出者,数据时代的迅速发展壮大,使得人们无时无刻不在产生着新的数据;着大量的数据有的来源于网络电子商务,有的来源于软件所显示的用户地理为止信息,有的来源于我们热衷的微博和朋友圈,有的来源于人们日常生活中运用软件的聊天等等;而大数据的应用系统,正是建立在这庞大的数据来源上而产生出的新型应用系统,只有具备顶尖的处理模式系统,才能够有效的使大数据发挥出其强大的决策力、洞察力以及高超的流程优化能力,从而为大数据应用系统的使用者带来更加多样化的庞大信息资产;可以说,大数据应用技术的主要核心优势,不在于其能够掌控多大的数据信息,而在于其对于有价值数据的挖掘处理能力,本文着重的介绍了我国对大数据应用技术的系统构架以及系统的实现过程,为大家初步的介绍了我国的大数据应用系统。
【关键词】大数据应用 系统架构 设计与实现
信息时代的来临,为我国的人民打开了一道方便之门,同时也形成了极其庞大的,来自于各个领域的数据信息,善于利用这些庞大的数据信息,能够为我国的企业或是其它单位带来巨大的经济效益和发展空间,因此,我们当前的各行各业,都将主要的精力投入到了对大数据应用系统的架构设计与实现过程当中了
1 大数据应用系统的架构设计
1.1 总体架构的设计原则
大数据的出现和运用,对我国传统的数据应用架构系统带来了新的挑战,对于大数据的架构系统,首先需要具备能够大量储存PB、EB以及ZB等数据的储存能力;其次是对于大数据的分析方面,以往的数据分析系统,无论在对数据信息的分析方式或是方法上都已经无法继续满足对当前信息时代这种庞大的信息数据的分析了,对于大数据的应用系统架构设计原则上,我国的一些企业级单位,应该秉承着数据系统的可用性、可靠性、较大的扩展空间性以及较大的容错性、安全性和对用户隐私的保护性等方面特性原则对大数据的应用系统进行架构设计;与此同时,我国大数据的应用系统在进行总体的架构和设计的过程中,还应该始终坚持三个统一原则,首先,大数据的处理应用系统应该具备较大的数据加载和处理分析能力,以及能够对应大数据信息进行及时处理的速度;其次,这种大数据应用系统在架构设计过程中,还应该充分的满足一些企业级的单位对数据信息处理的需求,在功能上要具备极强的扩展性与可用性;最后,大数据的应用系统,还应该具备能够准确分析原始数据格式,以及对错综复杂的原始数据进行整理筛分的功能。
1.2 大数据应用架构的结构设计
根据对Apache基金会所具备的大数据应用技术的总体架构模式我们不难看出,对于大数据,其整个的产生、组织与相应的处理,主要都是通过分布式的文件处理这一系统来完成和实现的,由于当信息时代我国所拥有的数据生产源较为多元化,因此其数据的各处结构也同样较为多样;大数据的应用架构,其结构被分为了完全结构化、非结构化和半结构化三种类别,其中在完全结构化中,大数据的数据信息源,会呈现出较为明确清晰的格式;而在非结构化中,一些文本档案数据信息和视频声频等数据信息,都会因为没有大致的结构,而使其整体的内容在处理过程中变得混乱无序;在半结构化中,其数据一般都较为容易被理解和逻辑处理,然而,这些数据由于种类过多、鱼龙混杂,使得有价值的信息和无价值的垃圾数据混在了一起,想要挖掘出真正具有价值和意义的数据信息,就需要我们寻求专门人员的帮助,借助专家的分析力量来完成有价值信息的挖掘。
2 大数据的应用系统架构实现
以Hadoop分布式应用为例,其对大数据的应用架构已经与现有的数据信息架构相结合了,这种结合,为使用这一系统的企业带来了十分巨大的信息资产和经济价值;这一系统的主要目的就是为了对WEB服务器日常所产生出的大量有着大数据3V特性的日志文件进行系统深入的分析,同时这种Hadoop的分布式应用技术,能够对一些TB等级的日志进行深入的分析,其所生成分析结果与预测情况,将会充分的展现在系统的电子报表当中;企业单位可以参照者这些已经获得了的分析数据,来对大数据信息中具备更大价值的数据资源进行更进一步的深入挖掘,以便于找到其潜藏的巨大价值。
2.1 Hadoop分布式大数据应用对日志文件的处理
WEB服务器每时每刻都会因处理业务总量过多而生成数量庞大的日志文件,其中包含了URL的相关访问日志文件、各业务的流程处理日志文件等,大量的日志文件将会通过EC2 这一操作系统,将任务和相关的文件数据上传到Amazon的存储服务S3 bucket之中;这些日志文件能够对整个系统的实时运作状况以及系统的一些不可见问题进行及时的反应。
2.2 Hadoop并行处理框架的运用
在Had
文档评论(0)