- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘在银行业中的应用
摘要
银行为人们提供了越来越多的人性化服务, 因而银行的数据也在迅速膨胀, 这些数据背后隐藏了大量有价值的信息, 银行要在金融领域里的竞争中处于不败之地必须利用这些信息。数据挖掘正是从海量数据中提取有用信息的一种有效工具,数据挖掘在银行业中扮演着无可替代的作用。
关键词:数据挖掘 银行业
Abstract
The bank provides people with the humanized service more and more, so the bank data also in rapid expansion, these data are hidden behind a lot of valuable information, banks in the financial field competition in an invincible position must use these information. Data mining is an effective tool to extract useful information from the huge data,data mining plays an irreplaceable role in the banking industry.
Keywords: data mining, banking
1.引言银行信息化的迅速发展,产生了大量的业务数据。从海量数据中提取出有价值的信息,为银行的商业决策服务,是数据挖掘的重要应用领域。汇丰、花旗和瑞士银行是数据挖掘技术应用的先行者。如今,数据挖掘已在银行业有了广泛深入的应用。:?
预测贷款逾期者(风险管理):某银行希望根据客户过去的贷款数据,利用数据挖掘来预测新的贷款者,核贷后会逾期的机率,以作为是否核贷的依据,或提供给客户其他类型的贷款产品。
Predicting Loan Defaulters: Suppose a bank is concerned about the potential for loans not to be repaid. If previous loan default data can be used to predict which potential customers are liable to have problems repaying loans, these “bad risk” customers can either be declined a loan or offered alternative products.
1.3设计工作的目的和意义
本文主要阐述了数据挖掘在银行业的一个应用即某银行希望根据客户过去的贷款数据,利用数据挖掘来预测新的贷款者,核贷后会逾期的机率。研究此信息的目的是,以此作为是否核贷的依据,或提供给客户其他类型的贷款产品。这样是银行信息化发展的一个具体的反映,银行的信息化建设一直处于业内领先水平,不仅具有国际领先的金融信息技术平台,建成了由自助银行、电话银行、手机银行和网上银行构成的电子银行立体服务体系,而且以信息化的大手笔——数据集中工程在业内独领风骚。4.1方案综述
4.2解决问题的方法与方案比较的选择
4.2.1数据仓库的建立
1)收集和分析业务需求
2)建立数据模型和数据仓库的物理设计
3)定义数据源
4)选择数据仓库技术和平台
5)从操作型数据库中抽取、净化、和转换数据到数据仓库
6)选择访问和报表工具
7)选择数据库连接软件
8)选择数据分析和数据展示软件
9)更新数据仓库
数据转换工具要求:
1)数据转换工具要能从各种不同的数据源中读取数据。
2)支持平面文件、索引文件、和legacy DBMS。
3)能以不同类型数据源为输入整合数据。
4)具有规范的数据访问接口
5)最好具有从数据字典中读取数据的能力
6)工具生成的代码必须是在开发环境中可维护的
7)能只抽取满足指定条件的数据,和源数据的指定部分
8)能在抽取中进行数据类型转换和字符集转换
9)能在抽取的过程中计算生成衍生字段
10)能让数据仓库管理系统自动调用以定期进行数据抽取工作,或能将结果生成平面文件
11)必须对软件供应商的生命力和产品支持能力进行仔细评估
4.2.2数据挖掘的方法与方案
数据挖掘技术主要有三种,即关联分析,分类分析,聚类分析。每种技术又有不同的算法具体如下:
关联分析算法
(1)Apriori算法
Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法,也是最著名的关联规则挖掘算法之一。Apriori算法就是根据有关频繁项集特性的先验知识而命名的。它使用一种称作逐层搜索的迭代方法,k—项集用
文档评论(0)