浅谈银行大数据应用.doc

下载文档 降价啦

30
0
约5.11千字
约 11页
2017-10-12 发布于江西
举报
版权申诉
保障服务

浅谈银行大数据应用.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

浅谈银行大数据应用

浅谈银行大数据应用摘要 “数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”,在大数据时代里,互联网金融是银行业不得不面对的竞争领域，银行需要的是切实可行、直达要害的业务转型和经营策略，同时对数据挖掘和分析能力的不足严重影响银行的发展。针对以上情况，引入大数据应用是可行的解决方案。本文首先介绍了大数据的概念、大数据分析、大数据的主要特点、大数据处理的流程及大数据技术包含的内容，针对大数据水平可以对银行的应用重点和适用范围进行了分析和研究，最后进行了总结和展望。关键词：大数据大数据应用银行引言银行业是一个数据驱动的行业，数据也一直是银行信息化发展的主题词。起初，要求帐务数据的统一，通过数据大集中和统一的核心业务系统来实现。第二步，要求客户数据的统一，支撑以客户为中心的多渠道服务和信息整合。第三步，要求建立主数据管理模型，分析产品、客户、资金、组织、人员等主数据，建立企业级数据模型，实现基于数据挖掘和分析的银行商业智能。在互联网金融时代或者大数据金融时代，银行信息化进入了一个新的发展阶段：大数据应用。随着2013年6月以来“余额宝”、“活期宝”的相继推出，陆续揭竿而起的互联网金融创新产品，彰显出互联网平台意欲分切互联网金融市场蛋糕、建立互联网金融帝国的“勃勃野心”。马云指出“金融互联网和互联网金融是未来金融两大机会”。金融网络化和网络金融化既是对商业银行的重大挑战，更是重新洗牌的绝佳机遇。为此，为应对大数据时代的挑战，商业银行必须关注抓住机遇实现新的跨越。大数据（一）大数据概念 “大数据”是一个体量特别大，数据类别特别大的数据集，并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看，大数据指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务（AWS）、大数据科学家JohnRauser提到一个简单的定义：大数据就是任何超过了一台计算机处理能力的庞大数据量。研发小组对大数据的定义：大数据是最大的宣传技术、是最时髦的技术，当这种现象出现时，定义就变得很混乱。 Kelly说：大数据是可能不包含所有的信息，但我觉得大部分是正确的。对大数据的一部分认知在于，它是如此之大，分析它需要多个工作负载，这是AWS的定义。当你的技术达到极限时，也就是数据的极限。（二）大数据特点要理解大数据这一概念，首先要从大入手，大是指数据规模，大数据一般指在10TB规模以上的数据量。大数据同过去的海量数据有所区别，其基本特征可以用4个V来总结(Volume、Variety、Value和Velocity)，即体量大、多样性、价值密度低、速度快。 1.数据量大。非结构化数据增长，从TB级别，跃升到PB级别。 2.多样性。大数据的多样性，包括很多不同形式（文本、图像、视频、机器数据等）。 3.价值密度低。大量的不相关数据。 4.高速性。实时分析而非批量式分析，立竿见影而非事后见效。（三）大数据处理的流程整个处理流程可以概括为四步，分别是采集、导入和预处理、统计和分析，最后是数据挖掘。 1．采集大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。由于并发度高,需要在采集端部署大量数据库才能支撑。技术上重点攻克分布式虚拟存储技术，大数据获取、存储、组织、分析和决策操作的可视化接口技术，大数据的网络传输与压缩技术，大数据隐私保护技术等。 2．导入、预处理导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。主要操作包括：一是抽取：因获取的数据可能具有多种结构和类型，数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型，以达到快速分析处理的目的。再是清洗：对于大数据，并不全是有价值的，有些数据并不是我们所关心的内容，而另一些数据则是完全错误的干扰项，因此要对数据通过过滤“去噪”从而提取出有效数据。ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。 3．统计分析统计与分析主要利用分布式数据库或分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，改进已有数据挖掘和机器学习技术；开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术；