分类机器学习方法论文决策树算法论文.pdf

分类机器学习方法论文决策树算法论文.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

分类机器学习方法论文决策树算法论文

摘要:随着互联网技术的飞速发展,人们已经进入了一个大数据

时代,这就对数据的存储、收集有了更高的要求,在对相关数据进行

处理时,由于数据数量过多,往往需要花费大量的时间与精力,大大

降低了数据分析的效率。为了能够在当前的大数据时代,从诸多的数

据中挖掘出所需的信息,将信息进行分类是一项尤为重要的工作。

1.分类的定义

数据挖掘中的分类就是指对一系列相关数据加以汇总分类的数

据集,合集中的数据都是根据它们的不同属性来决定的,在合集之中

只有一种属性是个例的。利用相应的模型表达合集,根据属性不同而

变换的量的数据库便称之为合集,合集中的数据包含连续属性、离散

属性,通过一个字符表示这种类别的属性,再用一个字母表示合集中

数据的数量,从而推算出计算模型,以便数据的挖掘。

2、分类的目的

通过对数据库中大量的数据进行数据整合分析,并根据每项数据

不同的概念进行分类,其分类的目的是利用某种例如模型的方法,将

隐藏在数据中的函数经过数据整理分析而推算出来,目前被运用较多

的地方是商业发展方面。根据输入数据的特性,进行细致分析,利用

一种适合的模型进行描述,将这些分析过的数据进行整理归纳后放入

特定的数据库中,这些数据有助于未来新数据类型的预测,也可以通

过这些数据推测出将来的发展趋势。预测的用意就是通过数据库中已

获得的数据推算出所需的未知数据,但这类数据只可算作预测数据,

并不是确定的数据,也可能会因为意外而产生改变。

3、分类器的构造方法

3.1统计方法

统计方法包括准确数据的整理和推测数据的整理,利用判别函数

和原型事例进行数据分析的方法。

3.2机器学习方法

机器学习的方法是一种利用决策树和归纳的方式进行数据分析

的方法,先由决策树分析得出数据,再进行数据的归纳总结。其中决

策树是目前被使用较多的一种计算方式,方便对数据进行深入研究。

3.3神经网络方法

神经网络方法主要使用的是误差反向传播的计算方式,即是一种

利用非线性判别函数分析数据的方法。通过逆向反应的方法分析数据,

再由点和边组成新的结构体系,从而推导出函数模型,以达到数据整

理分析的目的。

3.4粗糙集方法

粗糙集方法是最新产生的一种挖掘数据的方法,通过规则性的方

式归纳计算数据,以达到数据分析的目的。

4、决策树算法

在分类器算法中决策树具有如下特征:有向以及无环,这也就暗

示了其在分类、预测等领域的广泛应用,研究决策树算法不仅仅有助

于数据分析以及挖掘,对于人工智能的发展也有这不可言喻的作用。

简单来说,句册书的每个内部节点都为属性的集合,节点所具备的属

性也被成为测试属性,利用决策树进行分类首先需要具备决策树模型,

而决策树模型的构建则需要通过以下两个环节。第一个环节为决策树

的构建,在建立过程中需要基于广度优先递归算法而展开,最终建立

的决策树需要使得每个叶子节点都可以划分到相同的类别当中,第二

个环节为决策树的修剪,这一阶段的目的在于利用剩余数据对决策树

模型检验,以保障决策树模型分类的准确性。

4.1決策树构建

决策树在构建过程中应当本着“从上至下、分而治之”的原则,

构建时应当先从根结点开始,随后逐渐扩充到下属的非叶结点,对其

测试属性进行了解,根据不同属性再将样本集划分为子样本集,而这

些子样本集又构成了新叶结点,随后不断重复以上划分操作,直到达

到特定的条件。基于决策树的学习算法所具备的优势与劣势都为,不

要求使用者对此有充足的了解。

4.2决策树修剪

正确性是决策树学习算法中所需要考虑的因素之一,并且这一因

素应当摆在考虑的首位,但是,决策树算法的复杂性也应当唤起人们

的关注。倘若决策树的构造较为复杂,人们在理解过程中就很产生极

大的困难,与此同时,构造过于复杂对于数据存储也会产生极大的影

响,所需要花费的代价也会随之提高。因此,如何在保证正确率的情

况下,使决策树不断的趋于简单成为了广大学者所努力的方向。根据

笔者对当前的参考文献分析,发现现如今修剪决策树的方式主要有以

下两种,即预剪枝与后剪枝。简单来说,预剪枝即在完全正确分类训

练集之前,使得树停止生长,这种方式尽管可以起到使决策树趋于简

洁的作用,但也会造成视野效果方面的问题,值得注意的一点是,预

剪枝不需要生成整棵决策树,算法与后剪枝相比很简单,其次,预剪

枝在解决大型问题

文档评论(0)

159****9442 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档