基于weka数据挖掘技术在银行借贷需求研究中应用.doc

基于weka数据挖掘技术在银行借贷需求研究中应用.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于weka数据挖掘技术在银行借贷需求研究中应用

基于weka数据挖掘技术在银行借贷需求研究中应用摘要:数据挖掘就是通过分析存在于数据库里的数据来解决问题 在数据挖掘中计算机以电子化的形式存储数据并且能自动的查询数据,通过关联规则、分类于回归、聚类分析等算法对数据进行一系列的处理,寻找和描述数据里的结构模式进而挖掘出潜在的有用的信息。本文用WEKA软件作为工具结合某银行实例数据对借贷需求的数据进行分析。 关键词:数据挖掘 关联规则 回归 聚类 weka一、引言 数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象。在人工智能领域,习惯上又把数据挖掘称为数据库中的知识发现(Knowledge Discovery in Database,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。 二、数据挖掘算法简介 1.Apriori算法简介 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法的名字基于这样的事实:算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的选代方法,k-项集用于探索(k+1)-项集。首先,找出频繁i-项集的集合,该集合记作L1 。L1用于找频繁2-项集的集合L2而L2用于找L 3 ,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。 2.ID3决策树算法 ID3 决策树算法是 J.Ross Quinlan 1986年提出的该算法引入熵来标识信息的不确定性,熵值越小,系统越有序,反之则越无序.ID3算法中使用信息熵来度量对数据集进行划分所需要的信息量,算法选择信息增益最大的属性作为分裂属性,自顶向下递归地构建决策树,直到所有实例都属于同一个类,没有更多的属性用来产生划分,则采用多数表决产生叶子节点.由于该算法是自顶向下的贪心算法, 所以不能保证全局最优. 三、基于weka的实验 1.基于分类的预测 选择Preprocess选项中的open file选项把我们的训练数据集导入weka中选择“trees”下的“J48”,这就是我们需要的ID3算法,它没有变灰色,表示当前数据集可用该算法进行挖掘。点“Start”按钮开始让算法生成决策树模型。用文本表示的一棵决策树中可以看出孩子属性重要性最高离根节点最近,在后续子树的构造中,由于设置了剪枝阈值,当划分中类值对应实例个数所占比例超过剪枝阈值,则直接返回该类值所对应的类标号,所以sex属性没有出现在决策树中树的分类精度虽然略有下降,但决策树更加简洁,树的深度及叶子节点的数目都相应减少,符合最优决策树的要求。也就是说有孩子的贷款的可能性就大一些,没有孩子的贷款的可能性就小一些。这个矩阵是说,原本“pep”是“YES”的实例,有99个被正确的预测为“YES”,有39个错误的预测成了“NO”;原本“pep”是“NO”的实例,有18个被错误的预测为“YES”,有144个正确的预测成了“NO”。99+39+18+144=300是实例总数,而(99+144)/300=0.81正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。 2.基于Apriori算法的实验 在Apriori算法中我们来验证孩子属性和贷款可能性之间的关联规则,首先需要对数据进行相应的处理,把原始数据中的属性列除了孩子属性和可能性属性外都删除。切换到“Associate”选项卡,点击“Choose”按钮后选择“Apriori”参数设置从第二个开始依次表示的意思:c-1-类索引为-1输出项集设为真,D 0.05-递减迭代值为0.05,M 0.1-最小支持度下届设为0.1, T 0–度量单位选为置信度,(T1-提升度,T2杠杆率,T3确信度),C 0.9–度量的最小值为0.9,N 10 -规则数为10,I-输出项集,若设为false则该值缺省,S-1.0-重要程度为-1.0,U1.0-最小支持度上界为1.0。从上表的分析可以看出来有孩子并且有贷款需求可能的是93条记录,有孩子没有贷款需求的记录是7

文档评论(0)

docman126 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档