分类规则在金融行业的应用分析.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类规则在金融行业的应用分析

分类规则在金融行业的应用分析 摘要: 数据库内容丰富,蕴藏大量信息。数据挖掘的主要任务是对大型数据库中的海量业务数据进行抽取、转换、分析和模型化处理,从中提取辅助决策的关键性数据和隐藏的预测性信息。其功能是在指定的数据集中发掘出数据间潜在的模式,找出人们可能忽视的信息,以便于理解和观察的形式反映给用户,并给出基于知识的决策分析意见和结论。随着数据挖掘的蓬勃发展,它的功能会越来越多。分类规则就是其中一种,它可以用于提取描述重要数据类的模型。许多分类方法已被机器学习、专家系统、统计学以及神经生物学方面的研究者提出。基于以上内容,可以建立一个分类模型,进行详细的分析,对保险客户的信用、安全或风险进行分类评价。 关键词:数据挖掘;分类;金融;保险 前言: 数据挖掘的主要任务是对大型数据库中的海量业务数据进行抽取、转换、分析和模型化处理,从中提取辅助决策的关键性数据和隐藏的预测性信息。其功能是在指定的数据集中发掘出数据间潜在的模式,找出人们可能忽视的信息,以便于理解和观察的形式反映给用户,并给出基于知识的决策分析意见和结论。分类规则一种数据分析形式,可以用于提取描述重要数据类的模型。许多分类方法已被机器学习、专家系统、统计学以及神经生物学方面的研究者提出,同时基于分类规则方法的数据挖掘被广泛应用于金融行业。 正文: 分类规则在金融行业的应用分析 众所周知,数据库内容丰富,蕴藏大量信息,可以用来作出智能的商务决策。数据分类是数据挖掘的功能之一,也是数据挖掘领域一种非常重要的任务,在神经网络、专家系统、统计学习中得到较早的研究,并且目前在商业中得到了广泛的应用。数据分类实际上就是从数据库对象中发现共性,将数据对象分成不同几类的一个过程,具体来说是在己有数据的基础上建立一个分类函数或构造出一个分类模型,该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。分类是一种有监督的学习。本文就数据挖掘中的分类规则的相关知识进行详尽分析与应用说明。 一、数据分类的概念 数据分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。 二、分类规则的分析 分类定义为:给定数据库S={s1,s2,…,sn} ,元组si∈S ,类的集合C={c1,c2,…,cm },分类问题定义为从数据库到类集合的映射f: S→C ,即数据库中的元si分配到某个类Cj中,有Cj={si|f(si)= cj ,1≤i≤n,si∈D}。 数据分类是一个两步过程。第一步,建立一个模型,描述预定的数据类集或概念集;第二步,使用模型进行分类。 通常在分类任务中数据集被划分为训练集和测试集两个部分。数据集中用来建立模型数据称为训练集,训练集是构造分类器的基础。训练集由多条数据库记录组成,每条记录是一个由多个个相关字段值组成的特征向量,称之为属性,训练集的每条记录还有一个特定的值与之对应,用于表示该记录的类别,称之为类标签。测试集是数据集中的另外一组数据库记录,用来评估分类模型的准确率。 数据分类的基本技术有:判定树归约、贝叶斯分类和贝叶斯网络、神经网络。 三、判定树归约 判定树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。在判定树构造时,许多分枝可能反映的是训练数据中的噪声或孤立点。树剪枝试图检测和剪去这种分枝,以提高在未知数据上分类的准确性。判定树作为一种常用的机器学习方法,主要用于建立预测模型,它通过将大量数据有目的分类,从中找到一些有价值的、潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。 判定树归约的基本算法是贪心算法,它自顶向下递归的各个击破方式构造判定树。设S是s个数据样本的集合。假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,...,m)。设si是类Ci中的样本数.一个给定的样本分类所需的期望信息由下式给出: 设属性A具有V个不同值{a1a2,...,av}。可以用属性A将S划分为v个子集{S1,S2,...,Sv};其中。Si包含s中这样一些样本,它们在A上具有值aj。如果A宣威测试属性(即最好的分裂属性),则这些子集对应于由包含集合S的节点生长出来的分枝。设sij是子集sj中类Ci的样本数。根据由A划分成子集的熵或期望信息由下式给出: 其中: 充当第j个子集的权,并且等于子集(即A值为aj)中的样本个数除以S中的样本总数。熵值越小,子集划分的纯度越高。对于给

文档评论(0)

peain + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档