采用Hadoop架构公安业务数据分析系统.docVIP

采用Hadoop架构公安业务数据分析系统.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
采用Hadoop架构公安业务数据分析系统

采用Hadoop架构公安业务数据分析系统   中图分类号:P413 文献标识码:A 文章编号:1009-914X(2014)24-0053-01   公安系统内“向信息化要警力、向信息化要战斗力”已经成为了一种共识,随之而来的大规模公安信息化建设,使得各公安信息系统迎来了“大数据”时代。   1.大数据概述   所谓大数据,首先是“大”,“大”是指数据体量之大,一般在10TB 规模以上,但在实际应用中,把多个数据源集放在一起,可以达到了PB 级的数据量;其次是数据类别的多样性,数据来自多种数据源,种类和格式复杂,已经冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。这样,就可以给“大数据”一个简洁明了的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。   针对大数据的分析、运算和处理,传统的方式是向上扩展,即加快研制并制造出??来越大型的服务器,使之具备超高的计算性能、海量的数据存储a、超常的网络吞吐能力,以及近乎无限的扩展能力,并以这种高性能的服务器来解决大数据问题。而这种向上的扩展方式终会扩展到其极限,至少是在成本上会受到很大的制约,于是开始寻求一种对外扩展的方式,即将许多常规的PC服务器组织在一起,形成一个功能专一的分布式处理的集群系统,这就是“云计算”的概念。   2.“云计算”的常规架构   “云计算”的概念是在2006年由Google公司率先提出的,是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务,而云计算的使用者完全不必关心相关的基础设施的具体实现。云计算系统是基于目前日益成熟的并行计算、分布式计算、网格计算等技术,并从中发展而来,并且加上虚拟化技术,高速网络互联技术。云计算技术具有超大规模、虚拟化、高可靠性、通用性、高可伸缩性、按需服务和极其廉价等特点。   既然各平台是基于商业模式,云计算提出了三种服务模式,从底层硬件到高层服务,分别为:基础设施即服务(IaaS,Infrastructure as a Service)、将平台作即服务(PaaS,Platform as a Service)和软件即服务(SaaS,Software as a Service)。   IaaS模式是将硬件设备如内存、I/O设备、存储和计算能力整合成一个虚拟的资源池,作为基础资源封装成服务供用户使用;PaaS模式把开发环境作为一种服务来提供,提供一种分布式平台服务,包括开发环境、服务器平台、硬件资源等服务,用户在其平台基础上定制开发自己的应用程序,或者干脆利用平台研发的中间件平台来开发自己的应用程序,并通过平台的服务器和互联网传递给其他客户;SaaS模式是应用软件统一部署在自己的服务器上,用户根据需求通过互联网向厂商订购应用软件服务,并且通过浏览器向客户提供软件的模式,由服务提供商维护和管理软件、提供软件运行的硬件设施。这三种云计算的模式,对于公安业务的实际需求,比较合适的是PaaS模式。   BigTable是Google AppEngine(GAE)平台的数据库,针对数据类型众多、服务请求海量而设计的,是一个分布式多维映射表,存储在表中的数据不做任何解析,一律看做字符串,BigTable的存储逻辑可以表示为:(row:string, column:string, time:int64)→string。   Chubby则是Google设计的提供粗粒度锁服务的一个文件系统,它基于松耦合分布式系统,解决了分布的一致性问题。   从上可以看出,Google AppEngine从操作系统和开发平台层面架构起一个功能强大的云计算系统,然而此系统是Google公司私有的一个系统,作为公安系统解决公安业务大数据问题,直接在该平台上进行商业性开发是有风险和不可行的。为此,公安系统需要自建一个公安专用的大数据平台,用以专门解决公安业务平台出现的大数据问题,这就是基于开源软件的分布式平台Hadoop。   3.Hadoop平台及其架构   Hadoop的起源是Apache软件基金下的一个开源分布式计算平台,或可称为一个开源的框架,可编写和运行分布式应用处理大规模数据。具有使用方便、健壮、可扩展和开发简单等优势。   作为同样基于PaaS服务的平台,Hadoop和Google AppEngine有许多共同点,甚至有些部门就干脆从Google系统直接开源移植的,如MapReduce。   Hadoop作为一个开源的项目组,其构成的核心子项目是MapReduce和分布式文件系统HDFS(Hadoop Distributed File System),此外还有一些不可或缺项目如Common、Av

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档