9 分类与预测.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Chapter 9 分类与预测 广东商学院信息学院 胡建军 教学目的、要求 掌握分类的相关概念 掌握决策树分类法 教学重点及难点 决策树分类法 线性回归预测法 Outline 基本概念 决策树分类 预测 小结 Outline 基本概念 决策树分类 预测 小结 基本概念 分类:把给定的数据划分到一定的类别中。 分类过程: 1、建立模型(分类规则): 根据训练数据集(数据已被标好类别)的属性特征,为每一种类别找到一个合理的描述或模型,即分类规则。 2、使用模型进行分类 根据建立的模型把还未分类的新数据分入不同的类别。 已分类训练集?建模型,分类规则?应用于集合分类 Classification Process (1): Model Construction Classification Process (2): Use the Model in Prediction Supervised vs. Unsupervised Learning 有监督与无监督学习 Supervised learning (classification 分类 主观意志) 监督: The training data (observations, measurements, etc.) are accompanied by labels indicating the class of the observations 训练集带主观意志 New data is classified based on the training set Unsupervised learning (clustering 聚类 客观) 训练集无主观意志class labels of training data is unknown 客观事物 物以类聚,人以群分。 分类 VS 预测 预测(Prediction ):构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间。 建立连续模型(规律)?预测未来或过去未知的数值 分类和回归是两类主要预测问题。 分类是预测离散或标称值(类标号); 回归是用于预测连续或有序值。 Classification vs. Prediction f : X?Y 如果Y 有太多的值(500个), f称为推测(包括考古、插值、预测),如果Y有5-20个值,成为分类, f-1(y) 称为一个类,类标为y. 所以分类是预测的特例。 Typical Applications 典型应用 社会分为阶层: 政治态度+经济地位 ? 阶层 法官审判,f:具体案例 ? 判N年 高考录取 都是分类 credit approval 信用评估 target marketing 营销 medical diagnosis 医疗诊断 treatment effectiveness analysis 效率分析 数据的准备Data Preparation Data cleaning 数据清理 Preprocess data in order to reduce noise and handle missing values Relevance analysis ( feature selection) 相关分析 Remove the irrelevant or redundant attributes (无关属性将减慢和可能误导学习步骤) Data transformation 数据转换 Generalize(概化) and/or normalize(规范化) data 分类算法的评估 准确率:模型正确预测新数据类标号的能力 速度:产生和使用模型花费的时间。 time to construct the model 挖掘速度 time to use the model 应用速度 健壮性:有噪声数据或空缺值数据时模型正确分类或预测的能力。 伸缩性:对于给定的大量数据,有效地构造模型的能力。 可解释性:学习模型提供的理解和观察的层次。 Outline 基本概念 决策树分类 线性回归 小结 判定树分类 判定树(decision tree):一个类似与流程图的树结构。 其中每个内部结点表示在一个属性上的测试, 每个分枝代表一个测试输出, 而每个叶节点代表类或类分布。 树的最顶层是根节点。 决策树算法 用于分类和预测。 决策树学习是以样本为基础的归纳学习方法。 基本算法是贪心算法,采用自顶向下的递归方式构造决策树。 常用决策树方法有ID3、C4.5等。 ID3算法 ID3算法是国际上最有影

文档评论(0)

80092355km + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档