- 1、本文档共43页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第 1 章 绪 论
第 1 章 绪 论
背景知识及研究意义
百度,Google,Yahoo 等互联网搜索引擎改变了许多人的生活方式,这些搜索引擎
使得任何人离任何问题的答案之间的距离只有点击一下鼠标那么远。现在几乎无人不知
互联网搜索引擎的用处,但大多数人可能并不了解,是数据挖掘和机器学习技术在支撑
着这些搜索引擎。
说到机器学习(Machine Learning)[1-2]和数据挖掘(Data Mining)[3]技术,我们有必
要回顾一下人工智能(Artificial Intelligence)[4]的发展历程。从信息科学技术的角度来看,
在人工智能还处在“推理期”的时候,人们普遍相信,只要给予机器逻辑推理的能力,
机器就可以拥有智能。然而,当人工智能进入“知识期”时,大量专家系统陆续出现,
人们逐渐意识到只有设法让机器拥有知识,让机器自己可以学习,才能使机器具有智能。
所以说,机器学习是人工智能发展到一定阶段的必然产物。机器学习领域主要有以下几
大算法[5-6]:(1)决策树算法(Decision Tree)(2)K-Means 算法 (3)支持向量机算法
SVM(Support Vector Machine) (4)Apriori 算法 (5)最大期望算法 EM(Expectation
Maximiztion)(6)PageRank 算法 (7)AdaBoost 算法 (8)K 近邻算法(k-nearest neighbour
classification)(9)贝叶斯分类器 (10)分类和回归树算法。
在上述十大算法当中,决策树算法因其分类精度高、速度快并且容易理解等优势,
被更为广泛的应用。在解决数据分类问题时,决策树算法是通过对已知的数据进行训练
和学习,得到一棵具有关联规则和高信息价值的树,而这棵树揭示了数据的内部信息,
实现了数据的分类。
近年来,机器学习领域的研究热点是对决策树算法的改进和优化。最早的决策树算
法是由 Hunt 等人于 1966 年提出的概念学习系统 CLS:Concept Learning System,概念
学习系统是第一个采用树的概念来进行学习的,它是决策树算法的先驱,为今后的决策
树算法构建奠定了基础。当前最有影响力的决策树算法是 J.R.Quinlan 于 1986 年提出的
ID3(Iterative Dichotomizer 3)算法[7],之所以称其为 ID3 算法是因为这种算法是一系列
交互式二分法程序的第三版。该算法采取“语义数据”,也就是把实值变量填充到整数
格子当中去,将间隔看做无序属性进行计处理。1993 年 Quinlan 又提出了 ID3 的一个改
1
河北大学理学硕士学位论文
进算法 C4.5 算法[8]。C4.5 算法可以说是 ID3 算法的后继,它是对语义属性采取多重分
支,也是现如今最流行的决策树算法。这两种算法都是以信息论作为理论基础,分别以
信息熵和信息增益率来选择扩展属性。其他的早期算法中最典型的是 1984 年 L.Breiman
等人提出的 CART(Classification and Regression)算法[9]。此算法的独特之处在于它是
基于统计学习理论的决策树算法,在节点选择上,它选择在统计意义上使其分类误差最
小的属性作为测试属性。
这些经典的决策数算法都是假定分类变量是无序的,然而,现实生活中许多领域广
泛存在的一种有序的分类问题,比如雇员评价、个人信誉评定、经济政策分析大学排行
等。经典的决策树算法并不能解决此类问题,因为它不能反映出数据之间的序结构。基
于这个问题,许多学者相继提出了若干有序决策树算法,这为解决有序分类问题提供了
很大帮助。
有序决策树学习算法的产生、发展与研究现状
在机器学习领域,有序分类也被称为单调性分类[10-11](Monotone classification),或
者多标准决策分析。有序分类问题考虑到样例的条件属性和决策类别都是线性有序的,
分类器 f 的任务是将未知样本 x 根据属性集 A={
a a a }分给带有序结构的决策集
1, 2 , , ma a a }分给带有序结构的决策集
D={ 1, 2 , , c
ω ω ω },其中决策集存在偏序关系ω ? ω ? ? ω ,其它属性也存在一种序关
1 2 c
系,这样的属性集被称为“标准”。有序分类在机器学习领域被称为单调性分类,在其他
的领域有着不同的命名,比如在多元统计分析领域、生物医学领域被称为有序多分类回
归(Ordinal Multiple Classification Regression),在管理经营决策领域被称为多标准决策
分析(Multiple Criteria Decision Analysis)等等
您可能关注的文档
- 青岛市幼儿园英语渗透活动调查分析.doc
- 基于计量经济模型的能源消费、经济增长、碳排放关系研究——以中国西部地区为例 (1).doc
- 基于计量经济模型的能源消费、经济增长、碳排放关系研究——以中国西部地区为例.doc
- 中国制造业高管团队特征对企业绩效的影响研究.doc
- 佳木斯市居民集中生活区环境噪声影响研究.doc
- 评价理论视角下国际商务谈判的人际意义研究.doc
- 基于用户行为分析的推荐系统研究.doc
- 《燕赵都市报》雾霾天气报道研究(2011~2013年).doc
- 最低工资制度理论及其在中国的实践(2008—2012).doc
- 泊沙康唑预防青少年及成人侵袭性真菌感染的Meta分析.doc
- 2024年至2025年河南省周口市公开招聘警务辅助人员辅警结构化面试冲刺模拟题库二含答案.docx
- 2022年至2023年四川省成都市公开招聘警务辅助人员辅警结构化面试能力提升题库一含答案.docx
- 1.人教版小学一年级数学下册易错题母题集(附答案解析).pdf
- 3套高中生暑假作息表及评分规则(精选).pdf
- 人教版小学一年级数学下册期末易错题母题集打印版含答案.pdf
- 3套高中生暑假作息表及评分规则(精选).docx
- 广西壮族自治区南宁市第三中学2025届高三毕业班五月第二次适应性测试英语试卷(含答案).docx
- 广西壮族自治区南宁市第三中学2025届高三毕业班五月第二次适应性测试政治试卷(含答案).docx
- 握爪碰头节-宠物主题活动策划方案.pptx
- 中秋露营暮光音乐会(月光所致 与你欢喜)主题微醺计划答谢会派对方案.pptx
文档评论(0)