信用分析中常用数据挖掘算法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信用分析中常用数据挖掘算法.pdf

【高新技术产业发展 】 糕躜 信用分析 中常用数据挖掘算法 吴昌钱 (华侨大学 计算机学院 福建 泉州 362000) 中图分类号:TP311 文献标识码:A 文章编号:1671--7597(2011)0320035--01 0引言 某个属性上的测试 ,其下的每个分支代表着该属性上的一个测试输出。叶 随着商务、科技和政府等事务的信息化步伐加快,数据的形成速度也 子节点代表着元组的所属类别。 在加快 ,形成瞬间数据的爆炸性增长势态 。与此 同时,人们收集数据的能 决策树模型被用于分类预测时。可以直接单独使用,也可以与其他模 力也在迅速提高。现在,internet已经真正成为 了一个全球的信息系统 , 型相结合使用,后者能实现更为准确的分类预测。例如,可以直接使用决策 人们都 已经淹没在了数据和信息的海洋中,都在这数据的汪洋 中寻找有利 树模型来实现市场营销、风险管理等方面的管理决策制定。又如,先采用构 的信息 ,寻找商机,寻找利润增长点。那么,人们在海量数据中又如何才 建浅层次的决策树的方式来实现对样本集初步的分割, 目的是得到同质小样 能快速获得有效数据信息呢,这就需要采用智能处理方式来发现数据中的 本集;而后,与其它数据挖掘模型相结合进一步建立更为准确的分组。 知识,也就是要采用数据挖掘的技术来处理发现数据中隐含的模式,隐含 构建决策树算法模型的核心是选择合适的测试属性用 以分割样本集。 的知识。 在处理这一核心 问题上,采用不同的技术将形成不同的具体的决策树算法 数据库数据挖掘 (DataMining)就是从大量的、不完全的、有噪声 模 型。应用 比较广 泛 的决策树算法模 型有 :ID3、C4.5、C5.0、CART。 的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知 ID3是Quinlan于 1986年提 出 的基于信息熵 的决策树 分类 算法 ,c4.5是 道的、但又是潜在有用的信息和知识的过程 [1]。该定义包含着 以下几个 Ouinlan于1993年提出的ID3改进版 的算法,C5.O主要针对大数据集 的分 含义:① 被处理的数据必须是真实的、大量的;② 发现 的是有用的,是 类,与c4.5相 比,前者在生成规则方面作了改进,在运行效率上要 比后者 用户感兴趣的知识:⑨ 被发现的知识要可接受、可理解、可运用;④ 被 快。CART是一种生成二叉树的决策树算法,它同样是采用信息熵为选择分 发现的知识并不要求具有通用性,而是面向特定问题的有用知识 。数据挖 割属性的度量标准 。决策树算法除了上面提到的四种 ,还存在多种改进的 掘还被认为是一一种商业信息处理技术,主要特点是对商业数据库中的大量 算法,但在分割属性的选择方式上大都采用 “贪婪算法 ”。 业务数据进行抽取、转换、分析和其他模型化处理 ,从中提取辅助商业决 1.2神经 网络。神经网络是一组相互连接的由多个节点构成 的有 向 策的关键性数据。没有数据挖掘技术的发展,数据库中的大量数据不能得 图,是模拟智能动物的脑神经认知事物 的功能而建立的一种 网络学习模 到充分分应用 ,不能发现数据库 中数据所隐含的有用知识。那么,数据库 型。神经网络模型的建模过程是非线性的,属于梯度下降算法。支持信息 中的数据不管有多么的完整,量有多么的大,只要不能提供给经营决策, 的并行处理 ,在模式识别与分类、识别滤波 、自动控制、预测等方面都有 不能带来经济效益,数据最终只能是 “垃圾数据”。 ,泛的应用。 数据挖掘是一个涉及到多学科 的领域。这些相关领域学科包括数据库 神经网络的结构中有

文档评论(0)

kfigrmnm + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档