- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Data Mining: Concepts and Techniques 本讲内容 What is classification? What is prediction? Issues regarding classification and prediction Classification by decision tree induction Classification vs. Prediction Classification 主要用于对离散的数据进行预测 分为两步: 根据训练集,构照分类模型(训练集中每个元组的分类标号事先已经知道) 估计分类模型的准确性,如果其准确性可以接受的话,则利用它来对未来数据进行分类 Prediction: 构造、使用模型来对某个样本的值进行估计,例如预测某个不知道的值或者缺失值 主要用于对连续或有序的数据进行预测 Typical applications 信誉评估 医学诊断 性能预测 Classification—A Two-Step Process 模型构造阶段: describing a set of predetermined classes 假定每个元组/样本都属于某个预定义的类,这些类由分类标号属性所定义 用来构造模型的元组/样本集被称为训练集(training set) 模型一般表示为:分类规则, 决策树或者数学公式 模型使用阶段: for classifying future or unknown objects 估计模型的准确性 用一些已知分类标号的测试集和由模型进行分类的结果进行比较 两个结果相同所占的比率称为准确率 测试集和训练集必须不相关 如果准确性可以接受的话, 使用模型来对那些不知道分类标号的数据进行分类。 Classification Process (1): Model Construction Classification Process (2): Use the Model in Prediction Supervised vs. Unsupervised Learning Supervised learning (classification) Supervision: The training data (observations, measurements, etc.) are accompanied by labels indicating the class of the observations New data is classified based on the training set Unsupervised learning (clustering) The class labels of training data is unknown Given a set of measurements, observations, etc. with the aim of establishing the existence of classes or clusters in the data 简单例子 分类 两岁宝宝,给他看几个水果,并告诉他:红的圆的是苹果,橘黄的圆的是橘子 (建模型) 拿一个水果问宝宝:这个水果,红的圆的,是什么?(用模型) 聚类 两岁宝宝,给他一堆水果,告诉他:根据颜色分成两堆。宝宝会将苹果分成一堆,橘子分成一堆。假如告诉他:根据大小分成3堆,则宝宝会根据大小分成3堆,苹果和橘子可能会放在一起。 本讲内容 What is classification? What is prediction? Issues regarding classification and prediction Classification by decision tree induction 分类和预测相关问题 (1): 数据预处理 数据清洗 对数据进行预处理,去掉噪声,对缺失数据进行处理(用某个最常用的值代替或者根据统计用某个最可能的值代替) 相关分析 (特征选择) 去掉某些不相关的或者冗余的属性(如银行进行贷款信誉评估时不需要考虑属于一周的某一天) 数据转换 对数据进行概括(如将连续的值离散成若干个区域,将街道等上升到城市) 对数据进行规范化,将某个属性的值缩小到某个指定的范围之内 分类和预测相关问题 (2): 对分类方法进行评价 准确性: 分类准确性和预测准确性 速度和可伸缩性 构造模型的时间 (训练时间) 使用模型的时间 (分类/预测时间) 鲁棒性 能够处理噪声和缺失数据 可伸缩性 对磁盘级的数据库有效 易交互性 模型容易理解,具有较好的洞察力 本讲内容 What is classification? What
文档评论(0)