基于FRMI的有序决策树算法及其比较研究.doc

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第 1 章 绪 论 第 1 章 绪 论 背景知识及研究意义 百度,Google,Yahoo 等互联网搜索引擎改变了许多人的生活方式,这些搜索引擎 使得任何人离任何问题的答案之间的距离只有点击一下鼠标那么远。现在几乎无人不知 互联网搜索引擎的用处,但大多数人可能并不了解,是数据挖掘和机器学习技术在支撑 着这些搜索引擎。 说到机器学习(Machine Learning)[1-2]和数据挖掘(Data Mining)[3]技术,我们有必 要回顾一下人工智能(Artificial Intelligence)[4]的发展历程。从信息科学技术的角度来看, 在人工智能还处在“推理期”的时候,人们普遍相信,只要给予机器逻辑推理的能力, 机器就可以拥有智能。然而,当人工智能进入“知识期”时,大量专家系统陆续出现, 人们逐渐意识到只有设法让机器拥有知识,让机器自己可以学习,才能使机器具有智能。 所以说,机器学习是人工智能发展到一定阶段的必然产物。机器学习领域主要有以下几 大算法[5-6]:(1)决策树算法(Decision Tree)(2)K-Means 算法 (3)支持向量机算法 SVM(Support Vector Machine) (4)Apriori 算法 (5)最大期望算法 EM(Expectation Maximiztion)(6)PageRank 算法 (7)AdaBoost 算法 (8)K 近邻算法(k-nearest neighbour classification)(9)贝叶斯分类器 (10)分类和回归树算法。 在上述十大算法当中,决策树算法因其分类精度高、速度快并且容易理解等优势, 被更为广泛的应用。在解决数据分类问题时,决策树算法是通过对已知的数据进行训练 和学习,得到一棵具有关联规则和高信息价值的树,而这棵树揭示了数据的内部信息, 实现了数据的分类。 近年来,机器学习领域的研究热点是对决策树算法的改进和优化。最早的决策树算 法是由 Hunt 等人于 1966 年提出的概念学习系统 CLS:Concept Learning System,概念 学习系统是第一个采用树的概念来进行学习的,它是决策树算法的先驱,为今后的决策 树算法构建奠定了基础。当前最有影响力的决策树算法是 J.R.Quinlan 于 1986 年提出的 ID3(Iterative Dichotomizer 3)算法[7],之所以称其为 ID3 算法是因为这种算法是一系列 交互式二分法程序的第三版。该算法采取“语义数据”,也就是把实值变量填充到整数 格子当中去,将间隔看做无序属性进行计处理。1993 年 Quinlan 又提出了 ID3 的一个改 1 河北大学理学硕士学位论文 进算法 C4.5 算法[8]。C4.5 算法可以说是 ID3 算法的后继,它是对语义属性采取多重分 支,也是现如今最流行的决策树算法。这两种算法都是以信息论作为理论基础,分别以 信息熵和信息增益率来选择扩展属性。其他的早期算法中最典型的是 1984 年 L.Breiman 等人提出的 CART(Classification and Regression)算法[9]。此算法的独特之处在于它是 基于统计学习理论的决策树算法,在节点选择上,它选择在统计意义上使其分类误差最 小的属性作为测试属性。 这些经典的决策数算法都是假定分类变量是无序的,然而,现实生活中许多领域广 泛存在的一种有序的分类问题,比如雇员评价、个人信誉评定、经济政策分析大学排行 等。经典的决策树算法并不能解决此类问题,因为它不能反映出数据之间的序结构。基 于这个问题,许多学者相继提出了若干有序决策树算法,这为解决有序分类问题提供了 很大帮助。 有序决策树学习算法的产生、发展与研究现状 在机器学习领域,有序分类也被称为单调性分类[10-11](Monotone classification),或 者多标准决策分析。有序分类问题考虑到样例的条件属性和决策类别都是线性有序的, 分类器 f 的任务是将未知样本 x 根据属性集 A={ a a a }分给带有序结构的决策集 1, 2 , , ma a a }分给带有序结构的决策集 D={ 1, 2 , , c ω ω ω },其中决策集存在偏序关系ω ? ω ?? ω ,其它属性也存在一种序关 1 2 c 系,这样的属性集被称为“标准”。有序分类在机器学习领域被称为单调性分类,在其他 的领域有着不同的命名,比如在多元统计分析领域、生物医学领域被称为有序多分类回 归(Ordinal Multiple Classification Regression),在管理经营决策领域被称为多标准决策 分析(Multiple Criteria Decision Analysis)等等

您可能关注的文档

文档评论(0)

lh2468lh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档