Hadoop在金融大数据的应用.docxVIP

  • 23
  • 0
  • 约3.07千字
  • 约 5页
  • 2021-04-12 发布于天津
  • 举报
Hadoop 在金融大数据的应用 摘要】在当今信息化时代的背景下,数据存储量已经 达到 PB 级,原有的关系型数据库已经不能满足要求,然而 Hadoop借鉴Google的GFS和MapReduce思想,可以适应大 数据时代的4V[1]要求,而且现在已成为 Big Data时代的关键 部件,金融业是以数据为基础的行业,正是大数据的用武之 地。 关键词】 Hadoop 大数据 HDFS MapReduce 金融 是大数据技术 Hadoop。Hadoop是一种起源于Google 的软件框架,是可以实现大数据时代云存储和云计算的方案。 (GFS和Map Reduce。这也是Hadoo p的两种核Google 公司在 (GFS和Map Reduce。这也是Hadoo p的两种核 二是 Hadoop 系统基本框架。随着 Hadoop 的发展壮大, 从早期的 Google 四大组件(GFS), MapReduce, BigTable 和 Chubby)的开源实现,Hadoop逐步演化成一个生态系统, 其基本框架如图 1 所示: 图 1 Hadoop 生态系统图 三是 HDFS。 HDFS( Hadoop Distributed File System )与之 前出现的如NTFS fat FAT32等文件系统不同。HDFS是 个不具备P0SIX[2兼容性的文件系统,这就意味着该系统不 定能像普通文件系统一样提供保障。由于它是一个分布式 文件系统,这就表示它在众多节点上扩大了存储, HDFS的主 要特点如下所示: 1.HDFS通常以64MB的数据块存储文件,相比传统的 4KB?32KB的分块有了很大的提升。 2.HDFS在时延的基础上优化了文件流吞吐量, 2.HDFS在时延的基础上优化了文件流吞吐量, 从而可以 高效处理较大文件请求流,但是对小文件的定位请求表现不 是很理想。 3.HDFS采用“一次写入,多次读取”的工作负载。 4.在存储节点上运行着一个 DataNode 的进程,负责相应 主机上的所有数据块。 而 NameNode 的主进程负责协调所有 的 DataNode 节点,如果运行 NameNode 进程的主机宕机, 则整个HDFS系统就会瘫痪。 5.HDFS的NameNode不断监视来自 DataNode的运行报 告,以确保发生故障时,任意数据块的副本数量都大于用户 配置的复制因子。否则, NameNode 会在集群中调度新增 个副本。 四是 MapReduce。 MapReduce 由两个函数组成, map 函 数和 reduce 函数,而这两个函数的概念来自于函数式的编程 语言[3]。 分而治之” 的思想在 MapReduce 中得到了有力的体现, 该思想的基本原则就是将单个较大任务分解成多个独立的 子任务。如果多个子任务能够并行执行,则可以大量节省完 成任务的时间,比如一个需要在理想情况下执行 200 分钟的 任务可以通过分解成为 200 个并行的子任务,则该任务可以 在 1 分钟之内完成。 是大数据的发展趋势。在金融、医疗、交通等和数据 密切相关的行业中,信息化的进程十分迅猛,这些行业存储 的大数据资源。而移动互联网以及物联网的发展有将采集数 据的渠道进一步拓宽,同时,在数据的增量方面,时下火爆 的社交网络,如微博,微信,知乎等 APP 都做出了大量的贡 献, Hadoop 软件框架的出现,使得大数据在技术上有了实 现的可能,但是对数据进行深入分析和挖掘的工作仅仅停留 化数据没有得到有效的挖掘,对非结构化的数据挖掘分析也 应当得到企业的重视。 在了表面,如图片,音频,视频等占数据总量一半的非结构 在了表面,如图片,音 频,视频等占数据总量一半的非结构 二是大数据的研究思想。大数据科学是研究如何在海量 数据中提取所需信息的系统化的学科 [4] ,这个学科旨在在大 量数据中发现和提取可指导我们后续行为的知识,也就是说, 我们通过相关技术对大数据进行分析和提取后的信息可以 为我们做出决定和预测提供有效的支持。 目前,在这个学科上的最核心的课题是机器学习,我们 赋予一些机器大量与问题相关的数据和信息,当人与机器对 话或是机器与机器对话的时候,这些机器可以根据我们已经 赋予它的数据和信息对提出的问题作出比较正确的回答。 为了将数据和信息记载到历史档案中,在 90 年代,应 用了商务智能系统 (BI),BI 将数据搜集到数据仓库中然后进 行挖掘和分析 [5] 。在金融领域,计算机已经可以处理不断增 长的细粒度的数据并作出决定,而且可以对流式数据进行实 时分析和数据挖掘。搜索引擎,网页商务和社交媒体又增加 了文本挖掘, 社交网络分析和异构数据分析的要求。 事实上, 多种类,高增长的数据信息,除了数据本身的质量和处理数 据的技术方面

文档评论(0)

1亿VIP精品文档

相关文档