- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第4章分类与预测,第4章分类与预测课件,第4章分类与预测PPT
第四章 分类与预测; 分类与预测;;定义4.2(预测)
1.预测及其特性
预测(prediction)是构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间。
预测的特点是:
1) 科学性;2) 近似性;3) 局限性。
;2.预测的类别
1)按预测方法分。
----可分为技术(统计)预测、信息预测和拟合预测。
2)按预测时期分。
------- 可分为短期预测、中期预测和长期预测。
3)按预测性质分。
-------可分为定性预测和定量预测。
;分类和回归都可用于预测,预测的目的是从历史记录数据中自动推导出对给定数据的推广描述。
例如,可以建立一个分类模型,对银行贷款的安全或风险进行分类;同时可以建立预测模型,给定潜在顾客的收入和职业,预测他们在计算机设备上的花费
;定义4.3
训练集:数据库中为建立模型而被分析的数据元组形成训练集。
训练集中的单个元组称为训练样本,每个训练样本有一个类别标记。
一个具体样本的形式可为:( v1, v2, ..., vn; c );其中vi表示属性值,c表示类别。
测试集:用于评估分类模型的准确率;4.1 分类的基本过程
数据分类(data classfication)是一个两步过程(见下图4—1)。
第一步,通过分析数据库元组来构造模型(学习)
假定每个元组属于一个预定义的类,由类标号属性(class label attribute)的属性确定。
;第二步, 使用模型进行分类
首先评估模型(分类法)的预测准确率。这些样本随机选取,并独立于训练样本。模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比。对于每个测试样本,将已知的类标号与该样本的学习模型类预测比较.
;;; 由于提供了每个训练样本的类标号,该步也称作有指导的学习(即模型的学习在被告知每个训练样本属于哪个类的,“指导”下进行)。
它不同于无指导的学习(或聚类),那里每个训练样本的类标号是未知的,要学习的类集合或数量也可能事先不知道。 ;分类模型的构造方法;不同的分类器有不同的特点:
(1)预测准确率
描述学习所获得的模型正确地预测未知对象类??能力。
(10-fold cross validation)
(2)计算复杂度
时间复杂度和空间复杂度
(3)模型描述的简洁度 (可理解性)
(4) 鲁棒性:
描述给定噪声数据或具有空缺值的数据,模型正确预测的能力。
(5)可伸缩性:
涉及给定大量数据,有效地构造模型的能力
;分类的典型应用有:
信用卡系统的信用等级(信誉证实)、医疗诊断、市场调查和寻找店址。
; 从机器学习中引出的决策树算法是一种较为通用并被深入研究的函数逼近方法,目前已形成了多种决策树算法,如:
CLS , ID3 ,CHAID ,CART , C4.5 等
;4.2 基于决策树(判定树)的分类
决策树是一个类似流程图的树型结构,其中树的每个内部结点代表对一个属性的测试,即形式为(ai=vi)的逻辑判断,其中ai是属性,vi是该属性的某个属性值,其分支就代表测试的每个结果,也就是每一种可能的值和一条边一一对应,叶子节点指定一个类别。
; 决策树构造的输入是一组带有类别标记的数据,构造的结果是一棵二叉或多叉树。
树中节点可分为两类:决策节点和叶子节点。
;年龄?; 为了对未知数据对象进行分类识别,可以根据决策树的结构对数据集中的属性进行测试,从决策树的根节点到叶节点的一条路径就形成了相应对象的类别测试。决策树可以很容易转换为分类规则
;一、使用决策树进行分类的一般步骤;基本算法
自上而下分而治之的方法
开始时,所有的数据都在根节点
所有记录用所选属性递归的进行分割
属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain)
停止分割的条件
一个节点上的数据都是属于同一个类别
没有属性可以再用于对数据进行分割
;一个决策树就是一个类别分辨器,它递归地对训练集进行划分,直至每个子集的记录全属于一类或某一类占压倒性的多数。树的每个非叶节点都包含一个分割点,决定了数据是如何划分的;1.建树;2.修剪
树一旦生成后,便进入第二阶段—修剪阶段。
主要是通过消除由于统计噪声或数据波动对决策树的影响来达到净化树的目的
文档评论(0)