- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
浙江农信大数据平台瞭望
近年来,互联网、云计算的快速兴起以及移动智能终端的快速普及,使得当前人类社会的数据增长比以往任何一个时期都要快。随着数据越来越大、越来越快、越来越复杂,数据特性的演变和发展,催生了一个全新的概念——大数据。大数据是一个涵盖多种技术的概念,既包括了传统的结构化数据,也包括了新的半结构化和非结构化数据。大数据平台就是掌握庞大的数据信息,并且对这些含有意义的数据进行专业化处理。大数据需要特殊的技术,以有效地处理大量的数据,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、可扩展的存储系统等。
浙江农信数据仓库基础平台自2009年底上线以来,经过5年多的发展,数据增长速度已经远超当初的规划。虽然经过一系列的优化措施,目前仍能满足现有应用的需求,但是随着业务的快速发展,浙江农信现有数据架构体系在数据查询的范围、时效性和海量数据处理能力上逐渐出现了一些瓶颈,对新业务的数据支持上存在一定的滞后性。面对日益激烈的市场竞争,构建一套符合全省农信实际、具有高效数据处理能力、高可扩展性、支持海量数据存储和分析能力、具备多样化数据处理能力的大数据平台,将成为浙江农信在大数据时代的挖掘数据价值的有力武器与重要抓手,对依靠数据推导业务的发展方向具有重要的意义。
浙江农信大数据平台的功能特点
浙江农信大数据平台自2015年7月立项,科技信息处历时5月完成开发测试,计划于12月正式上线。上线后大数据平台简单说就是以构建统一的大数据处理平台为基础,支持基于大数据的应用管理系统,构建支撑大数据分析和数据挖掘,卸载传统系统的压力,有效改善用户体验,满足海量数据存储的新一代数据平台,并具有以下功能特点:
(一)数据加工。对结构化、非结构化和半结构化的数据集中采集、加工、分析、应用,完善数据管理。
(二)数据装载。原有数据装载逻辑是通过SQL语句的INSERT、UPDATE、DELETE把经过E处理后的文件加载到数据库中。在Hadoop中,使用MAPREDUCE来实现原来通过SQL实现的数据加工过程,最终把数据装载到HBASE中。
(三)冠字号???统后台数据管理。针对冠字号系统数据规模巨大、文件数量庞大、需要高效的查询性能的特点,大数据平台以其高可靠、高效率、可伸缩的方式发挥处理海量数据的能力,解决传统架构中的性能瓶颈,为冠字号系统提供后台数据服务。在一期建设中,实现冠字号FSN数据文件的解压、解析和入库,并为冠字号系统前台查询和报表处理提供数据接口。
(四)历史交易明细查询。基于大数据平台的快速处理数据查询的功能,建立新一代的历史交易明细数据查询功能,能满足更多的查询需求,提高数据查询性能,改善客户的体验。
(五)传统平台的关系。大数据平台与银行传统业务是相互支撑的关系,数据流动通过接口实现。
除此之外,大数据平台还要支持分布式存储结构、快速灵活的扩容、性能的线性扩展。要能同应用系统通过HTTP、Web service、XML等多样化通用通讯格式对接,具有数据容量大、类型多、速度快、质量高等特点。
大数据平台的硬件环境和平台技术
(一)硬件环境。大数据平台的硬件架构由20台PC SERVER组成,我们使用了PC服务器的自带硬盘作为底层存储,每台机器容量2T。2台做NAME NODE 互备,其余18台为DATA NODE,如图:
传统的数据平台的硬件环境相比。它成本更低,只需要使用低成本的PC SERVER既可,而且不需要区分数据库集群和ETL集群。对于HADOOP来说,数据库部分的操作和ETL部分的操作都是基于MAPREDUCE程序和HDFS文件系统完成,而两者完全可以部署在同一套物理环境中。
(二)平台技术。大数据平台采用了基于Hadoop 2.4为核心的技术架构来进行了系统建设。Hadoop是大数据领域最常见的一门技术,一个分布式系统基础架构,Hadoop主要由分布式存储(HDFS)、分布式计算(MapReduce)组成,它的特点是:可扩展、经济高效。框架可以运行在任何PCServer上,分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。
随着大数据平台建设的深入,平台将逐渐建成为一个集高效、先进性、稳定性、安全性、可扩展性、可靠性于一体的新一代的数据平台。大数据平台将为未来的数据分析和数据挖掘等应用需求提供更好的数据支持,将为省农信拓展更多新业务创造条件,例如:
1.日志分析平台:结合互联网金融交易,收集各种结构和非结构化日志数据,掌握用户的行为轨迹,实现精准营销。
2.电子影像归档/查询平台;
3.客户分析平台:结合地理位置,客户交易行
您可能关注的文档
最近下载
- A.8 公用设备二次回路原理图集20170407.pdf VIP
- 人教版(2024)数学三年级上册《认识直角》PPT课件.pptx VIP
- 流行性感冒诊疗方案(2025 年版)解读PPT课件.pptx VIP
- 医院感染的消毒灭菌与器械管理.pptx VIP
- 新生儿大疱性表皮松解症的护理.pptx VIP
- 2025年呼吸内科医师呼吸系统疾病治疗考核试题及答案解析.docx VIP
- A.1 220kV线路二次回路原理图集..pdf VIP
- 回弹法检测混凝土抗压强度技术规程.pdf VIP
- 苏轼《南乡子 重九涵辉楼呈徐君猷》古诗词PPT.pptx VIP
- (2025年)全科医生培训考试题库及答案.docx VIP
文档评论(0)