基于FRMI的有序决策树算法及其比较研究.doc

下载文档 降价啦

13
0
约2.66万字
约 43页
2019-05-13 发布于安徽
举报
版权申诉
保障服务

基于FRMI的有序决策树算法及其比较研究.doc

1、本文档共43页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第 1 章绪论第 1 章绪论背景知识及研究意义百度，Google，Yahoo 等互联网搜索引擎改变了许多人的生活方式，这些搜索引擎使得任何人离任何问题的答案之间的距离只有点击一下鼠标那么远。现在几乎无人不知互联网搜索引擎的用处，但大多数人可能并不了解，是数据挖掘和机器学习技术在支撑着这些搜索引擎。说到机器学习(Machine Learning)[1-2]和数据挖掘（Data Mining）[3]技术，我们有必要回顾一下人工智能(Artificial Intelligence)[4]的发展历程。从信息科学技术的角度来看，在人工智能还处在“推理期”的时候，人们普遍相信，只要给予机器逻辑推理的能力，机器就可以拥有智能。然而，当人工智能进入“知识期”时，大量专家系统陆续出现，人们逐渐意识到只有设法让机器拥有知识，让机器自己可以学习，才能使机器具有智能。所以说，机器学习是人工智能发展到一定阶段的必然产物。机器学习领域主要有以下几大算法[5-6]：（1）决策树算法（Decision Tree）（2）K-Means 算法（3）支持向量机算法 SVM(Support Vector Machine) （4）Apriori 算法（5）最大期望算法 EM（Expectation Maximiztion）（6）PageRank 算法（7）AdaBoost 算法（8）K 近邻算法（k-nearest neighbour classification）（9）贝叶斯分类器（10）分类和回归树算法。在上述十大算法当中，决策树算法因其分类精度高、速度快并且容易理解等优势，被更为广泛的应用。在解决数据分类问题时，决策树算法是通过对已知的数据进行训练和学习，得到一棵具有关联规则和高信息价值的树，而这棵树揭示了数据的内部信息，实现了数据的分类。近年来，机器学习领域的研究热点是对决策树算法的改进和优化。最早的决策树算法是由 Hunt 等人于 1966 年提出的概念学习系统 CLS：Concept Learning System，概念学习系统是第一个采用树的概念来进行学习的，它是决策树算法的先驱，为今后的决策树算法构建奠定了基础。当前最有影响力的决策树算法是 J.R.Quinlan 于 1986 年提出的 ID3（Iterative Dichotomizer 3）算法[7]，之所以称其为 ID3 算法是因为这种算法是一系列交互式二分法程序的第三版。该算法采取“语义数据”，也就是把实值变量填充到整数格子当中去，将间隔看做无序属性进行计处理。1993 年 Quinlan 又提出了 ID3 的一个改 1 河北大学理学硕士学位论文进算法 C4.5 算法[8]。C4.5 算法可以说是 ID3 算法的后继，它是对语义属性采取多重分支，也是现如今最流行的决策树算法。这两种算法都是以信息论作为理论基础，分别以信息熵和信息增益率来选择扩展属性。其他的早期算法中最典型的是 1984 年 L.Breiman 等人提出的 CART（Classification and Regression）算法[9]。此算法的独特之处在于它是基于统计学习理论的决策树算法，在节点选择上，它选择在统计意义上使其分类误差最小的属性作为测试属性。这些经典的决策数算法都是假定分类变量是无序的，然而，现实生活中许多领域广泛存在的一种有序的分类问题，比如雇员评价、个人信誉评定、经济政策分析大学排行等。经典的决策树算法并不能解决此类问题，因为它不能反映出数据之间的序结构。基于这个问题，许多学者相继提出了若干有序决策树算法，这为解决有序分类问题提供了很大帮助。有序决策树学习算法的产生、发展与研究现状在机器学习领域，有序分类也被称为单调性分类[10-11]（Monotone classification），或者多标准决策分析。有序分类问题考虑到样例的条件属性和决策类别都是线性有序的，分类器 f 的任务是将未知样本 x 根据属性集 A={ a a a }分给带有序结构的决策集 1, 2 , , ma a a }分给带有序结构的决策集 D={ 1, 2 , , c ω ω ω }，其中决策集存在偏序关系ω ? ω ?? ω ，其它属性也存在一种序关 1 2 c 系，这样的属性集被称为“标准”。有序分类在机器学习领域被称为单调性分类，在其他的领域有着不同的命名，比如在多元统计分析领域、生物医学领域被称为有序多分类回归（Ordinal Multiple Classification Regression），在管理经营决策领域被称为多标准决策分析（Multiple Criteria Decision Analysis）等等