- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3 classification -a 数据仓储与数据挖掘 教学课件
Data Mining: Concepts and Techniques 本讲内容 What is classification? What is prediction? Issues regarding classification and prediction Classification by decision tree induction Classification vs. Prediction Classification 主要用于对离散的数据进行预测 分为两步: 根据训练集,构照分类模型(训练集中每个元组的分类标号事先已经知道) 估计分类模型的准确性,如果其准确性可以接受的话,则利用它来对未来数据进行分类 Prediction: 构造、使用模型来对某个样本的值进行估计,例如预测某个不知道的值或者缺失值 主要用于对连续或有序的数据进行预测 Typical applications 信誉评估 医学诊断 性能预测 Classification—A Two-Step Process 模型构造阶段: describing a set of predetermined classes 假定每个元组/样本都属于某个预定义的类,这些类由分类标号属性所定义 用来构造模型的元组/样本集被称为训练集(training set) 模型一般表示为:分类规则, 决策树或者数学公式 模型使用阶段: for classifying future or unknown objects 估计模型的准确性 用一些已知分类标号的测试集和由模型进行分类的结果进行比较 两个结果相同所占的比率称为准确率 测试集和训练集必须不相关 如果准确性可以接受的话, 使用模型来对那些不知道分类标号的数据进行分类。 Classification Process (1): Model Construction Classification Process (2): Use the Model in Prediction Supervised vs. Unsupervised Learning Supervised learning (classification) Supervision: The training data (observations, measurements, etc.) are accompanied by labels indicating the class of the observations New data is classified based on the training set Unsupervised learning (clustering) The class labels of training data is unknown Given a set of measurements, observations, etc. with the aim of establishing the existence of classes or clusters in the data 简单例子 分类 两岁宝宝,给他看几个水果,并告诉他:红的圆的是苹果,橘黄的圆的是橘子 (建模型) 拿一个水果问宝宝:这个水果,红的圆的,是什么?(用模型) 聚类 两岁宝宝,给他一堆水果,告诉他:根据颜色分成两堆。宝宝会将苹果分成一堆,橘子分成一堆。假如告诉他:根据大小分成3堆,则宝宝会根据大小分成3堆,苹果和橘子可能会放在一起。 本讲内容 What is classification? What is prediction? Issues regarding classification and prediction Classification by decision tree induction 分类和预测相关问题 (1): 数据预处理 数据清洗 对数据进行预处理,去掉噪声,对缺失数据进行处理(用某个最常用的值代替或者根据统计用某个最可能的值代替) 相关分析 (特征选择) 去掉某些不相关的或者冗余的属性(如银行进行贷款信誉评估时不需要考虑属于一周的某一天) 数据转换 对数据进行概括(如将连续的值离散成若干个区域,将街道等上升到城市) 对数据进行规范化,将某个属性的值缩小到某个指定的范围之内 分类和预测相关问题 (2): 对分类方法进行评价 准确性: 分类准确性和预测准确性 速度和可伸缩性 构造模型的时间 (训练时间) 使用模型的时间 (分类/预测时间) 鲁棒性 能够处理噪声和缺失数据 可伸缩性 对磁盘级的数据库有效 易交互性 模型容易理解,具有较好的洞察力 本讲内容 What is classification? What
您可能关注的文档
- 27 古代汉语的语序 古代汉语课件.ppt
- 27《斑羚飞渡》教学设计.doc
- 26长方体和正方体复习 苏教版六年级上数学 教学课件.ppt
- 27分数与整数相乘 苏教版六年级上数学 教学课件.ppt
- 27爆 烹调工艺学课件.ppt
- 27款精选电饭锅电路图纸+27页+0.2M.pdf
- 27肠道病毒 医学微生物学教学课件.ppt
- 28 古汉语的判断句 古代汉语课件.ppt
- 28-29-30 Ag, O, I, 中国经济发展与转型(英文版) 教学课件.ppt
- 27-28学时 四、多侧线的精馏塔 《化工传质与分离过程》教学课件.ppt
- 3 classification -b 数据仓储与数据挖掘 教学课件.ppt
- 3 classification -e 数据仓储与数据挖掘 教学课件.ppt
- 3 1.5 资源环境信息系统分析 资源环境信息系统.ppt
- 3 English for Academic Paper Writing & Publication(09) 学术论文写作课件.ppt
- 3 FET放大电路 模拟电子 传感器技术 教学课件.ppt
- 3 classification -d 数据仓储与数据挖掘 教学课件.ppt
- 3 Cold War 美国概况 教学课件.ppt
- 3 Dinner Party 商务现场口译课件20单元PPT.ppt
- 3 lexicon & morphology 语言学导论课件.ppt
- 3 信息商品分析 信息经济分析 教学课件.ppt
最近下载
- 《公共体育课》课程健美选项教学大纲.pdf VIP
- 新教材牛津译林版必修第一册全册各单元重点语法总结.pdf VIP
- 公共体育课课程排舞选项教学大纲.pdf VIP
- 不发火施工方案.pdf VIP
- 初中英语新人教版八年级上册Unit 2 Home Sweet Home语法知识讲解和练习(2025秋).doc VIP
- 新教材高中物理 期末综合检测(A、B卷)(含解析)新人教版必修第一册.pdf VIP
- 2025新人教版八年级英语上册Unit 2 Home Sweet课文讲解学案.docx VIP
- 2024年新教材高中物理模块综合检测A含解析新人教版必修第一册.docx VIP
- 2024新化县中小学教师招聘考试题库及答案.docx VIP
- 2024_2025学年新教材高中物理期末把关检测卷含解析新人教版必修第一册.doc VIP
文档评论(0)