- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1章 决策树方法
在数据仓库和数据挖掘的应用中,分类是一种非常重要的方法.分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器(Classifier).该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测.分类的主要算法有:贝叶斯算法、决策树算法(如ID3、C4.5等)、规则推导、人工神经网络、最近邻算法、支持向量机等等.这些算法在许多现实数据集合上可以做比较精确的数据预测,为人们的生活、生产、学习、研究提供了有效的途径.其中决策树算法具有良好的可解释性,在实践中的应用最为广泛.决策树分类算法的一个典型代表就是ID3算法.
1.1 概述
1.1.1 学习的相关概念
分类是在一个作为输入的训练集合上学会一个分类函数或构造出一个分类模型即我们通常所说的分类器(Classifier)利用它对数据中的,规则推导人工神经网络训练由一组构成,每个是一个由有关字段组成的特征向量,这些字段属性Attribute),用于分类的属性叫做,属性也就是训练的类别标记一个具体的形式可以表示为(… , an, c), 其中… , n) 表示字段值,c 表示类标… , xn}, 分类任务的目标是对数据集合D进行分析,确定一个映射函数f: (A1, A2, … , An)→C ,使得对任意的未知类别的实例xi=(a1, a2 , … , an)可标以适当的类标C*.
训练集是构造分类器的基础.训练集是包含一些属性的一个数据库表格,其中的一个属性被制定为分类标签.标签属性的类型是离散的,且标签属性的可能值的数目越少越好(最好是两或三个值).标签值的数目越少,构造出来的分类器的错误率越低.1.1.2 监督学习
机器学习方法分为有监督的学习和无监督的学习.有监督的学习需要给出不同类别的实例作为训练实例,由这些训练实例得到类的描述,然后给新的测试实例匹配类标.无监督的学习是在给定实例集合上,根据其内容,在无先验知识的条件下,将实例分成有意义的类.其中有监督的学习从学习过程的任务实施方式上可以分成两种极端的情况,即急切式学习策略和懒惰式学习策略.急切式学习策略在分类器训练阶段就建立将待分类实例映射到其预测类标上的一个有清晰假设的分类器.学习的过程是在训练数据集合上建立分类器的过程,它同分类过程是相分离的.一般的决策树算法就是典型的代表.而懒惰式学习算法没有建立清晰的假设,分类过程就是利用训练集合将给定实例与其类标匹配起来的过程,学习过程和学习结果的应用过程是同时进行的.
采用急切式学习策略的分类器,即对于给定的训练实例集合,在训练阶段就建立好一个分类器,在分类阶段直接地使用该分类器来给一个待分类实例分类.Fridman等的TAN分类器就是一种采用急切式学习策略的分类器.
采用懒惰式学习策略的分类器,在训练阶段不建立一个清晰的假设,而在分类阶段使用训练集合来将给定实例与其类标匹配起来,即在分类时利用训练集合和测试实例建立分类规则为该测试实例来分类.LBR分类器就是采用了一种完全懒惰的学习方法;基于实例的分类也采用了懒惰式学习策略.
一般来讲,对于同一种模型技术,急切式学习策略在效率上大大优于懒惰式学习策略,而懒惰式学习策略在分类精确度上优于急切式学习策略.
为了使分类器在能够在效率和分类精确度上都达到令人满意的水平,可以对上述两种学习策略进行研究,对同一种分类模型找到一个采用急切式学习策略和懒惰式学习策略的平衡点.这是分类器研究的一个突破点,也是本文的研究点之一.
1.1.3 学习问题实例介绍
在金融方面,银行和金融机构往往持有大量的关于客户的,各种服务的以及交易事务的数据,并且这些数据通常比较完整,可靠和高质量,这大大方便了系统化的数据分析和数据挖掘.在银行中,数据挖掘被用来建模,预测,识别伪造信用卡,估计风险,进行趋势分析,效益分析,顾客分析等.在此领域运用数据挖掘,可以进行贷款偿付预测和客户信用政策分析,以调整贷款发放政策,降低经营风险.信用卡公司可以应用数据挖掘中的关联规则来识别欺诈.
比如银行想知道顾客源在什么样的优惠后可以来开新账户,什么条件下顾客可能会注销已有的账户.例如,我们想预测信用卡欺诈行为,可以通过计算机算法分析信用卡用户的购买习惯,从而认识客户的模式,并分辨出偏离模式的信用卡盗用行为.
使用上面的模型和方法,该学习的过程首先需要有一个训练阶段,提供正反两面方面的偏离例子用挖掘程序来训练.训练之后,算法应能推导出合法交易的定义,并能预测一个新的交易是合法的还是非法的.智能数据挖掘利用了广泛的高质量的机器学习算法,它能够在应付大量数据的同时,又保证理想的响应时间,使得市场分析,风险预测,欺诈管理,客户关系管理和竞争优势分析等应用成为可以.
在医疗领域中,成堆的电子数据可
文档评论(0)