基于数据挖掘技术的个人信用的研究与分析.docVIP

下载本文档

3
0
约1.93千字
约 4页
2017-08-25 发布于北京
举报
版权申诉

基于数据挖掘技术的个人信用的研究与分析.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于数据挖掘技术的个人信用的研究与分析.doc

基于数据挖掘技术的个人信用的研究与分析　　摘要：本文使用国内顶尖的在线数据挖掘平台（TipDM），找出对分类预测影响较大的属性进行建模，分别通过基于k-means的聚类分析和Aporiori关联规则分析等方法对样本数据进行分析预测，找到了一条最后的规则。　　关键词：数据挖掘；关联规则；个人信用　　DOI：10.16640/j.cnki.37-1222/t.2016.22.129 　　0 引言　　本文使用国内顶尖的在线数据挖掘平台（TipDM），找出对分类预测影响较大的变量进行建模，分别通过k-means的聚类分析、Aporiori关联规则分析等方法对样本数据进行分析预测。　　1 方法　　1.1 K-means聚类算法　　K-means聚类算法是把数据点到原模型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小[1]。算法采用误差平方和准则函数作为聚类准则函数。　　（1）K-means聚类算法的目标函数。对于给定的一个包含n个 S维数据点的数据集，以及要生成的数据子集的数目K，K-means聚类算法将数据对象组织为K个划分。每个划分代表一个类，每个类有一个类别中心。计算该类内各点到聚类中心的距离平方和，聚类目标是使各类总的距离平方和最小[2]。　　（2）K-means算法的算法流程。K-means算法是一个反复迭代过程，目的是使聚类域中所有的样品到聚类中心距离的平方和最小，算法流程如下：第一步：选定数据空间中K个对象作为初始聚类中心；第二步：根据欧氏距离最近原则分别将它们分配给与其最相似的聚类中心所代表的类；第三步：计算每个类别中所有对象的均值作为该类别的新聚类中心，计算所有样本到其所在类，并判断聚类中心和值是否发生改变，若不改变则结束，若改变则继续循环操作，直到聚类中心和值不发生改变为止[3]。　　1.2 关联规则　　两个或两个以上变量的取值之间存在某种规律性，就是关联。数据关联是数据库中存在的一类重要的可被发现的知识。Apriori algorithm是关联规则里一项基本算法。关联规则的目的就是在一个数据集中找出项与项之间的关系，也被称为购物蓝分析。Apriori核心算法过程如下：第一步：扫描数据库计算出各个项集的支持度，得到频繁项集的集合；第二步：做一个（k-2）JOIN运算得到 2个只有一个项不同的属于的频集；第三步：通过扫描数据库，计算中各个项集的支持度，将中不满足支持度的项集去掉[4]。　　2 试验数据　　本文通过对300条样本数据的年龄、姓名、地区、收入、是否结婚、是否有孩子、是否有汽车、是否有抵押等参数进行分析，通过关联规则对样本中的某些变量进行分析，找到了一条最优规则；通过聚类分析算法对样本整体和某一变量进行聚类分析，分析出各簇中的样本数与百分比。　　3 试验结果　　3.1 利用K-means算法对样本数据进行分析评估　　3.2 利用Apriori关联规则算法对样本数据进行分析评估　　样本的最小支持度为0.1，置信度为0.9，产生的项集和其样本数量如表2。　　Apriori关联规则分析结果如下：　　children=NO mortgage=NO pep=NO 49 == married=YES 48 lift：（1.45） lev：（0.05） [15] conv：（8 　　4 试验总结　　现阶段，信贷业务的发展迅速，针对企业的信用评级已逐步完善，然而，针对个人的信用评级却相对欠缺。本次试验是使用国内顶尖的数据挖掘平台（tipdm）主要是针对个人信用评价的样本数据的某些变量进行了k-means聚类分析和关联规则分析，通过这次试验我认为k-means聚类算法是一个NP难优化问题，无法获得全局最优。　　通过对样本数据分析评估发现，在个人信用评级中信用最好的一条规则是没有孩子、没有抵押或负债，并且已经结婚。　　参考文献：　　[1]杜广龙.面向多自由度机器人的非受限智能人机交互的研究[D].华南理工大学，2013. 　　[2]安璐.异构蜂窝网络高能效节点部署研究[D].北京邮电大学，2015. 　　[3]任超.基于智能计算的预测模型研究及其在公共危机管理中的应用[D].兰州大学，2013. 　　[4]陈雪萍.数据挖掘技术在高校教务管理中的应用研究[D].广西师范大学，2014. 　　项目：2014榆林科技局项目（2014cxy-09-6） 4