- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于分类机器学习方法中决策树算法探讨
基于分类机器学习方法中决策树算法探讨
[摘 要]自21世纪我国信息化时代的发展以来,数据库中的数据也在随着时代的发展不断增加,目前人们对数据的分析能力早已达不到时代发展的要求。数据库目前所拥有的功能只够作为数据的快速储存和搜索,并不能计算出数据与数据之间的差距,也不能通过现有的数据推算出发展的方向。其只是单纯的具备丰富完整的数据,但所包含的信息量太少。因此,为了改进这一情况,需要相关技术人员研发出能够将所有数据分析转化成有利用价值信息的工具,其代表着数据挖掘技术的产生。数据挖掘是一个可以将数据转化成有用信息,并将信息进行归纳总结的数据整理工具,这一措施的出现,极大程度上促进了企业的发展。因此,笔者就分类的机器学习方法中的决策树算法进行论述。
[关键词]机器学习方法决策树算法 分类
中图分类号:TM86 文献标识码:A 文章编号:1009-914X(2017)10-0283-01
1.分类的定义
数据挖掘中的分类就是指对一系列相关数据加以汇总分类的数据集,合集中的数据都是根据它们的不同属性来决定的,在合集之中只有一种属性是个例的。利用相应的模型表达合集,根据属性不同而变换的量的数据库便称之为合集,合集中的数据包含连续属性、离散属性,通过一个字符表示这种类别的属性,再用一个字母表示合集中数据的数量,从而推算出计算模型,以便数据的挖掘。
2、分类的目的
通过对数据库中大量的数据进行数据整合分析,并根据每项数据不同的概念进行分类,其分类的目的是利用某种例如模型的方法,将隐藏在数据中的函数经过数据整理分析而推算出来,目前被运用较多的地方是商业发展方面。根据输入数据的特性,进行细致分析,利用一种适合的模型进行描述,将这些分析过的数据进行整理归纳后放入特定的数据库中,这些数据有助于未来新数据类型的预测,也可以通过这些数据推测出将来的发展趋势。预测的用意就是通过数据库中已获得的数据推算出所需的未知数据,但这类数据只可算作预测数据,并不是确定的数据,也可能会因为意外而产生改变。
3、分类器的构造方法
3.1 统计方法
统计方法包括准确数据的整理和推测数据的整理,利用判别函数和原型事例进行数据分析的方法。
3.2 机器学习方法
机器学习的方法是一种利用决策树和归纳的方式进行数据分析的方法,先由决策树分析得出数据,再进行数据的归纳总结。其中决策树是目前被使用较多的一种计算方式,方便对数据进行深入研究。
3.3 神经网络方法
神经网络方法主要使用的是误差反向传播的计算方式,即是一种利用非线性判别函数分析数据的方法。通过逆向反应的方法分析数据,再由点和边组成新的结构体系,从而推导出函数模型,以达到数据整理分析的目的。
3.4 粗糙集方法
粗糙集方法是最新产生的一种挖掘数据的方法,通过规则性的方式归纳计算数据,以达到数据分析的目的。
4、决策树算法
在分类器算法中决策树具有如下特征:有向以及无环,这也就暗示了其在分类、预测等领域的广泛应用,研究决策树算法不仅仅有助于数据分析以及挖掘,对于人工智能的发展也有这不可言喻的作用。简单来说,句册书的每个内部节点都为属性的集合,节点所具备的属性也被成为测试属性,利用决策树进行分类首先需要具备决策树模型,而决策树模型的构建则需要通过以下两个环节。第一个环节为决策树的构建,在建立过程中需要基于广度优先递归算法而展开,最终建立的决策树需要使得每个叶子节点都可以划分到相同的类别当中,第二个环节为决策树的修剪,这一阶段的目的在于利用剩余数据对决策树模型检验,以保障决策树模型分类的准确性。
4.1 ?Q策树构建
决策树在构建过程中应当本着“从上至下、分而治之”的原则,构建时应当先从根结点开始,随后逐渐扩充到下属的非叶结点,对其测试属性进行了解,根据不同属性再将样本集划分为子样本集,而这些子样本集又构成了新叶结点,随后不断重复以上划分操作,直到达到特定的条件。基于决策树的学习算法所具备的优势与劣势都为,不要求使用者对此有充足的了解。
4.2 决策树修剪
正确性是决策树学习算法中所需要考虑的因素之一,并且这一因素应当摆在考虑的首位,但是,决策树算法的复杂性也应当唤起人们的关注。倘若决策树的构造较为复杂,人们在理解过程中就很产生极大的困难,与此同时,构造过于复杂对于数据存储也会产生极大的影响,所需要花费的代价也会随之提高。因此,如何在保证正确率的情况下,使决策树不断的趋于简单成为了广大学者所努力的方向。根据笔者对当前的参考文献分析,发现现如今修剪决策树的方式主要有以下两种,即预剪枝与后剪枝。简单来说,预剪枝即在完全正确分类训练集之前,使得树停止生长,这种方式尽管可以起到使决策树趋于简洁的作用,但也会造
原创力文档


文档评论(0)