Hadoop在金融大数据应用.docVIP

下载本文档

15
0
约2.95千字
约 7页
2018-08-11 发布于福建
举报
版权申诉

Hadoop在金融大数据应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Hadoop在金融大数据应用

Hadoop在金融大数据应用　　【摘要】在当今信息化时代的背景下，数据存储量已经达到PB级，原有的关系型数据库已经不能满足要求，然而Hadoop借鉴Google的GFS和MapReduce思想，可以适应大数据时代的4V[1]要求，而且现在已成为Big Data时代的关键部件，金融业是以数据为基础的行业，正是大数据的用武之地。　　【关键词】Hadoop 大数据 HDFS MapReduce 金融　　一是大数据技术Hadoop。Hadoop是一种起源于Google的软件框架，是可以实现大数据时代云存储和云计算的方案。Google公司在2003年和2004年发表了两篇学术的论文：谷歌文件系统（GFS）和MapReduce。这也是Hadoop的两种核心技术的起源。　　二是Hadoop系统基本框架。随着Hadoop的发展壮大，从早期的Google四大组件（GFS），MapReduce，BigTable和Chubby）的开源实现，Hadoop逐步演化成一个生态系统，其基本框架如图1所示：　　图1 Hadoop 生态系统图　　三是HDFS。HDFS（Hadoop Distributed File System）与之前出现的如NTFS，FAT，FAT32等文件系统不同。HDFS是一个不具备POSIX[2]兼容性的文件系统，这就意味着该系统不一定能像普通文件系统一样提供保障。由于它是一个分布式文件系统，这就表示它在众多节点上扩大了存储，HDFS的主要特点如下所示：　　1.HDFS通常以64MB的数据块存储文件，相比传统的4KB～32KB的分块有了很大的提升。　　2.HDFS在时延的基础上优化了文件流吞吐量，从而可以高效处理较大文件请求流，但是对小文件的定位请求表现不是很理想。　　3.HDFS采用“一次写入，多次读取”的工作负载。　　4.在存储节点上运行着一个DataNode的进程，负责相应主机上的所有数据块。而NameNode的主进程负责协调所有的DataNode节点，如果运行NameNode进程的主机宕机，则整个HDFS系统就会瘫痪。　　5.HDFS的NameNode不断监视来自DataNode的运行报告，以确保发生故障时，任意数据块的副本数量都大于用户配置的复制因子。否则，NameNode会在集群中调度新增一个副本。　　四是MapReduce。MapReduce由两个函数组成，map函数和reduce函数，而这两个函数的概念来自于函数式的编程语言[3]。　　“分而治之”的思想在MapReduce中得到了有力的体现，该思想的基本原则就是将单个较大任务分解成多个独立的子任务。如果多个子任务能够并行执行，则可以大量节省完成任务的时间，比如一个需要在理想情况下执行200分钟的任务可以通过分解成为200个并行的子任务，则该任务可以在1分钟之内完成。　　一是大数据的发展趋势。在金融、医疗、交通等和数据密切相关的行业中，信息化的进程十分迅猛，这些行业存储的大数据资源。而移动互联网以及物联网的发展有将采集数据的渠道进一步拓宽，同时，在数据的增量方面，时下火爆的社交网络，如微博，微信，知乎等APP都做出了大量的贡献，Hadoop软件框架的出现，使得大数据在技术上有了实现的可能，但是对数据进行深入分析和挖掘的工作仅仅停留在了表面，如图片，音频，视频等占数据总量一半的非结构化数据没有得到有效的挖掘，对非结构化的数据挖掘分析也应当得到企业的重视。　　二是大数据的研究思想。大数据科学是研究如何在海量数据中提取所需信息的系统化的学科[4]，这个学科旨在在大量数据中发现和提取可指导我们后续行为的知识，也就是说，我们通过相关技术对大数据进行分析和提取后的信息可以为我们做出决定和预测提供有效的支持。　　目前，在这个学科上的最核心的课题是机器学习，我们赋予一些机器大量与问题相关的数据和信息，当人与机器对话或是机器与机器对话的时候，这些机器可以根据我们已经赋予它的数据和信息对提出的问题作出比较正确的回答。　　为了将数据和信息记载到历史档案中，在90年代，应用了商务智能系统（BI），BI将数据搜集到数据仓库中然后进行挖掘和分析[5]。在金融领域，计算机已经可以处理不断增长的细粒度的数据并作出决定，而且可以对流式数据进行实时分析和数据挖掘。搜索引擎，网页商务和社交媒体又增加了文本挖掘，社交网络分析和异构数据分析的要求。事实上，在将商务处理过程数字化的二十年里，它已经产生了大批量，多种类，高增长的数据信息，除了数据本身的质量和处理数据的技术方面，根据数据进行预测分析也已经成为了计算机和人类做出决定的基本要素之一。　　三是大数据在金融业的应用。　　1.产品创新能力成为核心竞争力。大数据应用拓宽了商业银行业务和