机器学习期末报告算法实验.pdfVIP

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

机器学习期末报告

(一)决策树

一、决策树简介

决策树是一种用来表示人们为了做出某个决策而进行的一系列判断过程的树形

图。决策树方法的基本思想是:利用训练集数据自动地构造决策树,然后根据这

个决策树对任意实例进行判定。

决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数

据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进

行分析。本质上决策树是通过一系列规则对数据进行分类的过程。

6070JRossQuinlan

决策树方法最早产生于上世纪年代,到年代末。由提出了

ID3C4.5

算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。

算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派

生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。

决策树算法构造决策树来发现数据中蕴涵的分类规则.如何构造精度高、规模小

的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步,决策

树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根

据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,

决策树的剪技:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下

的过程,主要是用新的样本数扼集(称为测试数据集)中的数据校验决策树生成

过程中产生的初步规则,将那些影响预衡准确性的分枝剪除

二、决策树的工作原理

决策树一般都是自上而下的来生成的。

选择分割的方法有多种,但是目的都是一致的,即对目标类尝试进行最佳的分割。

从根节点到叶子节点都有一条路径,这条路径就是一条“规则”。

决策树可以是二叉的,也可以是多叉的。

对每个节点的衡量:

1)通过该节点的记录数;

2)如果是叶子节点的话,分类的路径;

3)对叶子节点正确分类的比例。

有些规则的效果可以比其他的一些规则要好。

Y

N

w1Tx≥0

w2Tx≥0w3Tx≥0

YNYN

w4Tx≥0

YN

二叉决策树框图

三、决策树算法

ID3C4.5CART

决策树的典型算法有,,等。

ICDMtheIEEEInternational

国际权威的学术组织,数据挖掘国际会议(

ConferenceonDataMining200612

)在年月评选出了数据挖掘领域的十大经典

算法中,C4.5算法排名第一。C4.5算法是机器学习算法中的一种分类决策树算

,ID3C4.5

法其核心算法是算法。算法产生的分类规则易于理解,准确率较高。

不过在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,在实际应用

中因而会导致算法的低效。

决策树算法的优点如下:

1

()分类精度高;

2

()生成的模式简单;

3

()对噪声数据有很好的健壮性。

因而是目前应用最为广泛的归纳推理算法之一,在数据挖掘中受到研究者的广泛

关注。

1.ID3算法

ID3算法是一个众所周之的决策树算法,该算法是澳大利亚悉尼大学的

文档评论(0)

小孟* + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档