- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据时代银行业的机遇与挑战
大数据时代银行业的机遇与挑战??? 大数据是用来描述数据规模巨大、数据类型复杂的数据集。这些数据集的规模已经超出普通的数据库管理工具在可容忍的运行时间内进行数据的捕获、存储和处理的 能力。特别是近年来,伴随着物联网、移动互联网、社交网络的快速发展,企业数据增长迅猛,半结构及非结构化的数据呈几何倍增长;数据来源的渠道也逐渐增 多:网络日志、社交媒体,以及遍布各地的传感器网络等。大数据的时代已然来临,大数据分析已成为各行业竞争发展的变革点。而如何有效整合来自移动终端设 备、社交网络、PC、传感器网络等产生的结构化、非结构化的海量数据,并加以分析挖掘潜在的业务价值,已成为大数据时代企业经营发展的趋势和焦点。??? 一、大数据的特点及对企业经营管理的重要意义??? 1.大数据的特点??? 第一,数据规模巨大且增长迅猛。从TB级别跃升到PB乃至EB级别。??? 第二,数据类型繁多。既包含传统的结构化数据(如文本数据),也包含越来越多的非结构化数据(如网络日志、音频、视频、图片、传感器数据等)。这些数据对处理分析能力提出了更高的要求。??? 第三,数据价值极为关键但不易挖掘。由于海量数据中价值密度相对较低,但数据的商业价值却极为重要。如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是目前信息化亟待解决的难题。??? 2.大数据对企业经营管理的重要意义??? 伴随着传统的商业智能系统向纵深应用的拓展,企业决策已经越来越依赖于数据而非直觉经验。然而,传统的数据仓库对于数据分析通常是建立在关系模型的基础之 上,面向结构化数据处理,各分析主题之间的关系在系统内已经被创立,而且用以分析的数据也大都是企业自身信息系统中产生的运营数据,这些数据大都是标准 化、结构化的。事实上,这些数据只占到了企业所能获取的数据中的15%。??? 对于企业而言,85%的数据属于广泛存在于社交网络、物联网、电子商务等媒介的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算、传感 器等新兴渠道和技术的不断涌现和应用。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力, 并将其与已知业务的各个细节相融合。在大数据时代,企业进行数据分析的背景也发生了变化:①要涵盖海量数据规模;②要能真实精确地挖掘商业价值,快速分析 响应;③要面向丰富多样的数据类型,包括结构化和非结构化的数据。这使得传统解决方案在新的需求面前束手无策。点击查看原图??? 二、大数据分析的解决方案??? 1.大数据分析相关系统??? (1)Hadoop??? Hadoop是效仿谷歌FileSystem和谷歌MapReduce而实现的一套海量数据分布式处理的开源软件框架,被广泛部署运用于雅虎、 Facebook等互联网企业。目前,运行于雅虎的Hadoop集群被广泛用于雅虎广告、财经数据以及用户日志等数据的处理分析。??? Hadoop由两部分组成,一部分是HDFS分布式文件系统,一部分是MR框架(MapReduceFramework)。HDFS是MapReduce 的数据存储来源。HDFS按照一定粒度的数据分块来划分文件,并将这些数据分块分散存放在集群中的不同节点,为MapReduce提供并行计算的数据存 储。同时,HDFS利用多副本存放策略来保障数据的可靠性、可用性,并提供较高的数据输入输出吞吐率。MapReduce框架是进行海量数据并行计算的框 架,由一个作业追踪(Master)节点和多个任务追踪(Worker)节点构成。作业追踪节点用于任务划分、任务调度;而任务追踪节点用于接收来自于作 业追踪节点分配的Map或者Reduce任务,并执行这些任务,同时将任务的状态回馈给作业追踪节点。Hadoop通过计算移动到集群中的各个节点,在各 个节点进行并行计算任务(Map阶段),产生结果后将集群中各节点的数据汇总反馈至客户端(Reduce阶段)。??? (2)Hive??? Hive是Facebook开源的基于Hadoop的数据仓库平台。通过Hive,可以方便地进行海量数据提取、转化、加载(ETL)工作。Hive定义 了一个类似于SQL的查询语言HQL,能够将用户编写的SQL转化为相应的MapReduce程序。当然,用户也可以自定义Mapper和Reducer 来完成更为复杂的分析工作。作为互联网领域应用最为广泛的开源数据仓库,基于MapReduce的Hive在扩展性和容错性方面有强大的优势,其前景被业 界一致看好。但是相比传统并行数据仓库,Hive在存储引擎支持、执行引擎高效化以及多样化接口等方面,有待进一步发展。??? (3)Pig??? Pig是一个基于Hadoop的大规模数据分析平台,使程序员可以更加方便地进行大规模数据处理。PigLat
文档评论(0)