信用信息挖掘技术.ppt

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信用信息挖掘技术

数据挖掘 一、数据挖掘简介 数据挖掘的流程: 确定商业目标 确定数据来源 数据收集与选择 数据质量检查 数据的转换 简单的转换 复杂的转换,如从原始数据中提炼出大量的衍生变量,根据一定的统计原理把数据单位或变量标准化等。 一、数据挖掘简介 数据的挖掘、分析和建模 检验和解释结果 决策建议 结果付诸实施 跟踪与反馈 二、对数据进行描述和总结的技术 二、对数据进行描述和总结的技术 二、对数据进行描述和总结的技术 二、对数据进行描述和总结的技术 这些基本统计手段常用于: 对数据的集中度和离散度等分布特征进行简单的描述; 常用于描述数据的集中度的方法如均值、加权平均、中位数和众数等 常用于描述数据的离散度的方法如极差、四分位数、四分位数间距、方差和标准差等 对数据的质量进行稽核; 对数据间的关系进行初步的探索; 产生直观的报表。 三、对变量进行栏位划分和信息转化的技术 连续性变量 类别性变量 log(odds)=log(%good/%bad) 三、对变量进行栏位划分和信息转化的技术 优点: 能有效地捕捉住数据中蕴藏的非线性关系; 能有效地捕捉住数据中蕴藏的非单调性关系; 能有效地把变量值标准化,从而使原始数值规模很不相同的变量取得一致的统计数值; 能有效地把类别性变量包括到模型之中; 能有效处理缺失值和特殊值; 能有效地提高模型的“抗震荡性”; 能有效地提高模型的可解释性。 三、对变量进行栏位划分和信息转化的技术 缺点: 它是劳动密集性的过程; 它是一个资源密集性的过程; 它有一定主观判断的成分; 它会损失部分有用的信息; 它对模型的实施有额外的要求。 四、主成分分析、因子分析、变量类聚分析 主要是用来减少变量数目的统计技术 假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。 如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗? 当然不能。 你必须要把各个方面作出高度概括,用一两个有代表性指标简单明了地把情况说清楚。 四、主成分分析、因子分析、变量类聚分析 这些概括出来的代表性指标在主成分分析中叫主成分,在因子分析中叫因子,在变量类聚分析中叫类聚。 选择代表变量的标准是该变量与其所属的信息维度尽可能的高度相关,而与其他信息维度尽可能的低度相关。 五、类聚分析 类聚分析是一种对数据进行原始探索的统计方法,它根据数据观察点之间的相似性或距离的远近,来搜索把数据自然分组的一种结构。 等级性类聚 呈树型,几个较低级别的类聚构成一个较高级别的类聚。 非等级性类聚 把所有的数据观察点分成K个不同类聚,目标是类聚内的数据观察点之间的总距离最小化。 先将五个样本都分别看成是一个簇,最靠近的两个簇是3和4,因为他们具有最小的簇间距离 D(3,4)=5.0。 第一步:合并簇3和4,得到新簇集合1,2,(34),5 更新距离矩阵: D(1,(34)) = min(D(1,3),D(1,4)) = min(20.6, 22.4) = 20.6; D(2,(34)) = min(D(2,3),D(2,4)) = min(14.1, 11.2) = 11.2; D(5,(34)) = min(D(3,5),D(4,5)) = min(25.0, 25.5) = 25.0. 原有簇1,2,5间的距离不变,修改后的距离矩阵如图所示,在四个簇1,2,(34),5中,最靠近的两个簇是1和5,它们具有最小簇间距离D(1,5)=7.07。 1.选择一个含有随机选择样本的k个簇的初始划分,计算这些簇的质心。 2.根据欧氏距离把剩余的每个样本分配到距离它最近的簇质心的一个划分。 3.计算被分配到每个簇的样本的均值向量,作为新的簇的质心。 4.重复2,3直到k个簇的质心点不再发生变化或准则函数收敛。 坐标表示5个点{X1,X2,X3,X4,X5}作为一个聚类分析的二维样本:X1=(0,2),X2=(0,0),X3=(1.5,0),X4=(5,0),X5=(5,2)。假设要求的簇的数量k=2。 第1步:由样本的随机分布形成两个簇: C1={X1,X2,X4}和C2={X3,X5}。 这两个簇的质心M1和M2是: M1={(0+0+5)/3,(2+0+0)/3}={1.66,0.66}; M2={(1.5+5)/2,(0+2)/2}={3.25,1.00}; 样本初始随机分布之后,方差是: e12=[(0-1.66)2+(2-0.66)2]+[(0-1.66)2+(0-0.66)2]+[(5-1.66)2+(0-0.66)2]=19.36; e22=8.12; 总体平方误差是:E2=e12+e22=19.3

文档评论(0)

weizhent2017 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档