- 1、本文档共72页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树分类器朱晓峰mailto:seanzhuxf@seanzhuxf@/site/seanzhuxf/Guilin数据库知识发现技术数据预处理:属性约简,缺失值填充…关联规则分类或预测聚类可视化分析Guilin什么叫分类?分类是一个古老的方法、现代热门的课题已知数据的集合D:数据被标记学习:从数据集合中归纳出规则、规律等,通常称为分类器,或模型预测:用分类器预测新数据的类这种从有标记的数据种归纳分类器的方法叫监督学习决策树、回归是最常用的分类器Guilin分类任务图例分类任务例子Predicting tumor cells as benign or malignantClassifying credit card transactions as legitimate or fraudulentClassifying secondary structures of protein as alpha-helix, beta-sheet, or random coilCategorizing news stories as finance, weather, entertainment, sports, etc分类技术Decision Tree based MethodsRule-based MethodsMemory based reasoningNeural NetworksNa?ve Bayes and Bayesian Belief NetworksSupport Vector Machines决策树分类器/模型学习将已知数据集合分成训练数据集合测试集合学习:从一个训练数据集合归纳出一棵决策树:从完全空间搜索一棵最佳树的过程预测:用决策树分类新数据决策树是最常用的分类器之一不要求任何知识或参数设定它是一种监督学习方法一棵决策树可以表示成一组规则Guilin决策树的结构决策树是层次的树结构由一些节点和枝(边)组成,一棵决策树至少有一个节点枝的两端是节点一棵决策树通常是从左到右,或从上到下画图树的第一个节点称为根节点,“根-枝-节点-...–节点”的最后一个节点是叶节点,其它节点叫中间节点非叶节点至少有一条枝Guilin决策树分类器的解释一棵决策树是训练数据的一个划分树的一个非叶节点是对一个属性上的测试一个属性的一条枝是测试该属性的一个结果一个叶节点是一个类标记在每个非叶节点,一个属性被选中,它将训练数据分裂成尽可能不同类的子集合(划分)对于一个新数据,根据它的每个属性值从根节点一直匹配到叶节点,这个叶节点的标记就用来预测新数据的类Guilin构造决策树分类器的原则目标:最大化预测新数据的精度(实现困难)通常将给定的已知数据随机分成训练集合和测试集合。训练数据用于归纳分类器,测试数据用来评估分类器训练分类器时的目标是最大化预测测试数据的精度,即,该分类器基本上体现两个(训练和测试)集合的共同结构过度拟合(overfitting)问题:拟合训练数据的效果很好,拟合测试数据的效果很差Guilin举例说明(训练数据)Guilin举例说明(决策树)Guilin举例说明(测试数据)决策树是用于预测一个数据的类问题:Alex, Buddy and Cheery使用哪种交通工具?Guilin举例说明(决策树的运用)从根节点Travel cost per km开始如果Travel Cost = expensive,Transportation mode = car如果Travel Cost = standard,Transportation mode = train如果Travel Cost = cheap,决策树需要检查下一个节点Gender如果Gender = male,Transportation mode = bus如果Gender = female,决策树需要检查下一个节点Car ownership如果Car ownership = 0,Transportation mode = bus,否则Transportation mode = train Guilin举例说明(决策树)Guilin举例说明(决策树产生的规则)每个叶节点产生一条规则Rule 1:If Travel cost = expensive then Mode = car Rule 2:If Travel cost = standard then Mode = train Rule 3:If Travel cost = cheap ? Gender = male then Mode = bus Rule 4:If Travel cost = cheap ? Gender = female ? Car ownership = 0 then Mode = bus Rule
文档评论(0)