浅谈金融行业中的数据挖掘.docVIP

下载本文档

11
0
约3.09千字
约 6页
2017-01-07 发布于北京
举报
版权申诉

浅谈金融行业中的数据挖掘.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈金融行业中的数据挖掘.doc

浅谈金融行业中的数据挖掘　　[提要] 数据挖掘就是利用各种技术从海量的数据中发现知识，它具有广阔的应用前景。本文比较详尽地概论总结数据挖掘的概念、方法及应用，并且分析、归纳数据挖掘在金融领域的应用，具体包括趋势预测、客户关系管理、金融犯罪侦测、风险识别与管理等。　　关键词：数据挖掘；金融数据；预测；风险识别　　中图分类号：F83 文献标识码：A 　　原标题：浅谈金融行业中的数据挖掘　　收录日期：2013年5月28日　　银行、证券公司、保险公司每天的业务都会产生大量数据，利用目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。　　如何才能不被信息的汪洋大海所淹没，从中及时发现有用的知识，提高信息利用率呢？于是，数据挖掘技术就应运而生，并得以蓬勃发展，越来越显示出其强大的生命力。缺乏挖掘数据背后隐藏的知识的手段，导致了“数据爆炸但知识贫乏”的现象。它可以从大量的数据中抽取潜在的有用信息和模式，来帮助我们进行科学的决策。　　一、基本概念　　1、数据挖掘（Data Mining）。数据挖掘又称数据开采、数据发掘等，就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等，还可以进行数据自身的维护。　　2、数据仓库（Data Warehouse）。数据仓库是W.H.Inmon在1993年所写的论著《Building the Data Warehouse》中提出的。W.H.Inmon给数据仓库下的定义是：“数据仓库是面向主题（Subject-Oriented）的、集成（Integrated）的、稳定（Nonvolatile）的、时变（Time-Variant）的数据集合，用以支持管理决策的制定过程。”数据仓库可以在数据模型的指导下，收集系统内部和系统外部的数据信息，保证数据的一致性、准确性和时效性，真正实现数据共享和分析利用。　　二、数据挖掘的主要技术　　在应用到金融领域的各种数据挖掘技术中，主要有以下几种方法：　　1、基于神经网络的方法。神经网络方法是模拟人脑信息加工过程的一种智能化信息技术。人工神经网络是电脑通过多重输入相似平行处理结构来模拟人类识别模式的功能建造起来的。　　神经网络很适合非线性数据和含噪声数据，所以在市场数据库的分析和建模方面应用广泛。神经网络提供了一类准确性令人满意、程度上接近金融模式的工具。　　2、基于贝叶斯网络的方法。贝叶斯网络，又叫概率因果网络、信任网络、知识图等，是一种有向无环图。贝叶斯网络用图形来表示变量间连接概率关系。结点表示：领域变量；有向边：结点间的依赖关系；对每一个结点都对应着一个条件概率分布表，该分布表指明了该变量与父结点之间的依赖关系。　　3、遗传算法。遗传算法的基本思想是给出一个问题，在特有的人口遗传群体中潜在地含有解决方案或者较好的解决方案。基于遗传和进化原则，遗传算法反复修改人口的人工结构，操作员通过预置、选择、交叉和改变来逐步形成解决方案。　　4、基于规则和决策树的工具。决策树方法作为一种数据挖掘实现基于统计理论的非参数识别技术，不仅保持了多元参数，非参数统计的一些优点，而且克服了其不足，主要表现在：自动进行变量选择降低维数，充分利用先验信息处理数据间的非同质的关系，并可有效地用于对数据的分类。　　三、数据挖掘的主要步骤　　1、定义问题。对目标有一清晰、明确的定义，也就是确定需要解决的问题，这个目标应是可行的、能够操作与评价的。　　2、数据收集。大量全面丰富的数据是数据挖掘的前提，没有数据，数据挖掘也就无从作起。因此，数据收集是数据挖掘的首要步骤。数据可以来自于现有事务处理系统，也可以从数据仓库中得到。　　3、数据整理。数据整理是数据挖掘的必要环节。由数据收集阶段得到的数据可能有一定的“污染”，表现在数据可能存在自身的不一致性，或者有缺失数据的存在等，因此数据的整理是必需的。同时，通过数据整理，可以对数据做简单的泛化处理，从而在原始数据的基础之上得到更为丰富的数据信息，进而便于下一步数据挖掘的顺利进行。　　4、数据挖掘。利用人工智能、数理统计等各种数据挖掘方法对数据进行分析，发现有用的知识与模式。这是整个过程的核心步骤。　　5、数据挖掘结果的评估。数据挖掘的结果有些是有实际意义的，而有些是没有实际意义的，或是与实际情况相违背的，这就需要进行评估。评估可以根据用户多年的经验，也可以直接用实际数据来验证模型的正确性，进而调整挖掘模型，不断重复进行数据挖掘。　　6、分析决策。数据挖掘的