网站大量收购独家精品文档,联系QQ:2885784924

大数据处理技术的总结与分析.docx

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?数据分析处理需求分类

1事务型处理

在我们实际生活中,事务型数据处理需求非经常见,比如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统。

这类系统数据处理特点包含以下几点:

一是事务处理型操作都是细粒度操作,每次事务处理包括数据量都很小。

二是计算相对简单,通常只有少数几步操作组成,比如修改某行某列;

三是事务型处理操作包括数据增、删、改、查,对事务完整性和数据一致性要求非常高。

四是事务性操作都是实时交互式操作,最少能在几秒内执行完成;

五是基于以上特点,索引是支撑事务型处理一个非常主要技术。

在数据量和并发交易量不大情况下,通常依靠单机版关系型数据库,比如ORACLE、MYSQL、SQLSERVER,再加数据复制(DataGurad、RMAN、MySQL数据复制等)等高可用方法即可满足业务需求。

在数据量和并发交易量增加情况下,通常能够采取ORALCERAC集群方式或者是经过硬件升级(采取小型机、大型机等,如银行系统、运行商计费系统、证卷系统)来支撑。

事务型操作在淘宝、12306等互联网企业中,因为数据量大、访问并发量高,必定采取分布式技术来应对,这么就带来了分布式事务处理问题,而分布式事务处理极难做到高效,所以通常采取依照业务应用特点来开发专用系统来处理本问题。

?

2数据统计分析

数据统计主要是被各类企业经过分析自己销售统计等企业日常运行数据,以辅助企业管理层来进行运行决议。经典使用场景有:周报表、月报表等固定时间提供给领导各类统计报表;市场营销部门,经过各种维度组合进行统计分析,以制订对应营销策略等。

数据统计分析特点包含以下几点:

一是数据统计通常包括大量数据聚合运算,每次统计包括数据量会比较大。

二是数据统计分析计算相对复杂,比如会包括大量goupby、子查询、嵌套查询、窗口函数、聚合函数、排序等;有些复杂统计可能需要编写SQL脚本才能实现。

三是数据统计分析实时性相对没有事务型操作要求高。但除固定报表外,现在越来越多用户希望能做做到交互式实时统计;

传统数据统计分析主要采取基于MPP并行数据库数据仓库技术。主要采取维度模型,经过预计算等方法,把数据整理成适合统计分析结构来实现高性能数据统计分析,以支持能够经过下钻和上卷操作,实现各种维度组合以及各种粒度统计分析。

另外现在在数据统计分析领域,为了满足交互式统计分析需求,基于内存计算数据库仓库系统也成为一个发展趋势,比如SAPHANA平台。

?

3数据挖掘

数据挖掘主要是依照商业目标,采取数据挖掘算法自动从海量数据中发觉隐含在海量数据中规律和知识。

数据挖掘主要过程是:依照分析挖掘目标,从数据库中把数据提取出来,然后经过ETL组织成适合分析挖掘算法使用宽表,然后利用数据挖掘软件进行挖掘。传统数据挖掘软件,通常只能支持在单机上进行小规模数据处理,受此限制传统数据分析挖掘通常会采取抽样方式来降低数据分析规模。

数据挖掘计算复杂度和灵活度远远超出前两类需求。一是因为数据挖掘问题开放性,造成数据挖掘会包括大量衍生变量计算,衍生变量多变造成数据预处理计算复杂性;二是很多数据挖掘算法本身就比较复杂,计算量就很大,尤其是大量机器学习算法,都是迭代计算,需要经过数次迭代来求最优解,比如K-means聚类算法、PageRank算法等。

所以总体来讲,数据分析挖掘特点是:

?1、数据挖掘整个计算更复杂,通常是由多个步骤组成计算流,多个计算步骤之间存在数据交换,也就是会产生大量中间结果,难以用一条sql语句来表示。

2、计算应该能够非常灵活表示,很多需要利用高级语言编程实现。

二大数据背景下事务型处理系统相关技术

在谷歌、facebook、taobao等大互联网企业出现之后,这些企业注册和在线用户数量都非长大,所以该企业交易系统需要处理“海量数据+高并发+数据一致性+高可用性”问题。

为了处理该问题,从现在资料来看,其实没有一个通用处理方案,各大企业都会依照自己业务特点定制开发对应系统,不过惯用思绪主要包含以下几点:

(1)数据库分片,结合业务和数据特点将数据分布在多台机器上。

(2)利用缓存等机制,尽可能利用内存,处理高并发时碰到随机IO效率问题。

(3)结合数据复制等技术实现读写分离,以及提升系统可用性。

(4)大量采取异步处理机制,对应高并发冲击。

(5)依照实际业务需求,尽可能防止分布式事务。

1相关系统介绍

1)?阿里CORBAR系统

阿里COBAR系统是一个基于MYSQL数据库分布式数据库系统,属于基于分布式数据库中间件分布式数据库系统。该系统是前身是陈思儒开发“变形虫”系统(以前调研过),因为陈思儒离开阿里去了盛大,阿里当心“变形虫”稳定性等问题,重新开发该项目。

该系统主要采取数据库分片思绪,实现了:数据拆分

文档评论(0)

157****9175 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档