- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘(实用机器学习技术)摘录剖析
数据挖掘:从数据中寻找模式
机器学习:从大量的数据中自动或半自动地寻找模式的过程,而且这个模式必须是游泳的。
3 输出:知识表达
决策表
决策树:通常从决策树上读取出的规则的复杂度远远超出所需,所以常常需要对决策树的规则进行剪枝。决策树不易表示出隐含在一个规则集里的不通过规则间的逻辑或关系,所以讲一个普通的规则集合转换成据册数并不是十分直截了当的。
分类规则(if…then class=…)
关联规则(A=B,支持度和置信度)
包含例外的规则(default..except if…then…/if…then…else…)
包含关系的规则
数值预测树(线性回归、回归树、模型树)
基于实例的表达
规则与决策树:规则可以是对称的,而树必须首先选择一个属性进行分裂,这会导致树比一个等效的规则集大很多。在多类情况下,决策树分裂将考虑所有类别的情况,试图使分裂的纯度最大化,而规则建立法一次只集中处理一个类别,并不考虑其他类别上发生的情况。
4 基本方法
4.1 推断基本规则(1R)
使用单个属性作为决策的依据,选择其中工作性能最好的那个属性。
4.2 统计建模(贝叶斯方法)
朴素贝叶斯有独立属性的假设,这是它成为朴素的原因。
1)简单的方法通常能很好地工作
2)朴素贝叶斯处理属性的时候,认为属性是完全独立的,所以一些冗余属性会破坏及其学习过程。属性之间的依赖性不可避免地会降低朴素贝叶斯识别数据中究竟会发生什么的能力。然而,这种情况可以通过在决策过程中,进行属性子集选择来避免。
3)对于数值型数据,正太分布假设是朴素贝叶斯的另一个限制。也可以采用其他分布形式,或者核密度估计(不把属性值的分布假设成人和特定形式的分布),或者首先将数据离散化。
拓展:用于文档分类的贝叶斯模型、LDA
4.3 分治法:创建决策树
分治法:每次只考虑一个单独的属性建立规则,然后在每个分治上递归地重复这个过程,建立决策树。
几个概念:
信息量=熵
增益量=根节点信息量-属性节点信息量
分裂信息量=节点分裂成子节点的信息量
增益率=增益量/分裂信息量
一些情况下,增益率修正法补偿过度,会造成倾向于选择某个属性的原???,仅仅是因为这个属性的内在信息值比其他属性要小很多。一个标准的弥补方法是选择能够得到最大增益率的属性,且那个属性的信息增益至少要等于所有属性信息增益的平均值。
分治法也成为自上而下的决策树归纳法
4.4 覆盖算法:建立规则
覆盖算法和分治算法都牵涉到要寻找某个属性进行分裂的过程,但是两者寻找最佳属性的标准是不同的。分治算法,选择一个属性能使信息增益最大化,而覆盖算法,则要选择一个属性-值配对能够使期望类别概率达到最大化。
PRISM方法,可以描述为割治算法(separate-and-conquer)
顺序规则(决策列):规则顺序执行,规则之间不会冲突
顺序独立的规则:规则具有模块性,但规则可能会有冲突
4.5 挖掘关联规则
步骤:1)产生达到制定最小覆盖量(支持度)的项集;从每个项集中找出能够达到最小正确率(置信度)的规则。
建立关联规则所需的计算量取决于制定的最小覆盖率(支持度),正确率的影响力较小,因为它不会影响到访问整个数据集的次数。
4.6 线性模型
适用于数值属性的情况。
4.6.1 数值预测:线性回归
参数求解可采用梯度下降法、最小二乘法、最大似然法
4.6.2 线性分类:Logistic回归
HYPERLINK /jerrylead/archive/2011/03/05/1971867.html /jerrylead/archive/2011/03/05/1971867.html
多分类:成对分类法,建立k(k-1)/2个分类器,如若机器学习算法需要花费与n成比例的时间去执行,则该方法需要(k-1)n的时间。这种方法耗时与类别数量呈线性关系。
4.6.3 使用感知器的线性分类
基本思想:寻找分类超平面,也即权向量
使用条件:数据线性可分
4.6.4 使用winnow的线性分类
使用条件:二值型属性数据集。
和感知器一样,当出现错分的实例时,winnow才更新权值向量,它是错误驱动型的。 Winnow算法是对于跟踪数据集上的相关属性非常有效的方法,为此称为有效属性学习期。 如果一个数据集存在很多二值属性,并且其中的大部分属性不相关,那么winnow也许是一个好的候选算法。
4.7 基于实例的学习(最近邻)
寻找一个初始的最近邻点与树的深度相关,输的深度由树的节点个数取对数;回所并检查是否存在最近邻的工作量有一小部分取决于树,另一部分取决于初始近似点的好坏程度。对于一个结构良好的树,它的节点近似于方形,这部分工作量也是取决于节点个数的对
文档评论(0)