- 1、本文档共158页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘数据预处理参考
* * 案例:在汽车销售中的应用 * * * * * * N N Y Y Y N Y Y Y N N N 3、CART算法 * 由Friedman等人提出,1980年以来就开始发展,是基于树结构产生分类和回归模型的过程,是一种产生二元树的技术。 CART与C4.5/C5.0算法的最大的区别是:其在每一个节点上都是采用二分法,也就是一次只能够有两个子节点,C4.5/5.0则在每一个节点上可以产生不同数量的分枝。 * * * 构建树的步骤: * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 例: * 资料 训练样本 婚姻 年龄 家庭 所得 否 是 否 是 未婚 已婚 35 ≧35 低 高 否 小康 1.建立模型 测试样本 2.模型评估 错误率为66.67% 修改模型 3.使用模型 * 4、分类算法的评估 * 预测的准确度:指模型正确地预测新的或先前未见过的数据的类标号的能力。 训练测试法(training-and-testing) 交叉验证法(cross-validation) 例如,十折交叉验证。即是将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10倍交叉验证求均值,例如10次10倍交叉验证,更精确一点。 * * * 速度:指产生和使用模型的计算花费。 建模的速度、预测的速度 强壮性:指给定噪声数据或具有缺失值的数据,模型正确预测的能力。 可诠释性:指模型的解释能力。 * * 决策树归纳的基本算法是贪心算法,它以自顶向下递归各个击破的方式构造决策树。 贪心算法:在每一步选择中都采取在当前状态下最好/优的选择。 在其生成过程中,分割方法即属性选择度量是关键。通过属性选择度量,选择出最好的将样本分类的属性。 根据分割方法的不同,决策树可以分为两类:基于信息论的方法(较有代表性的是ID3、C4.5算法等)和最小GINI指标方法(常用的有CART、SLIQ及SPRINT算法等)。 二、决策树(Decision Tree) (一)决策树的结构 * 根部节点(root node) 中间节点(non-leaf node) (代表测试的条件) 分支(branches) (代表测试的结果) 叶节点(leaf node) (代表分类后所获得的分类标记) * * * (二)决策树的形成 例: * 根部节点 中间节点 停止分支 ? * (三)ID3算法(C4.5,C5.0) * * Quinlan(1979)提出,以Shannon(1949)的信息论为依据。 ID3算法的属性选择度量就是使用信息增益,选择最高信息增益的属性作为当前节点的测试属性。 信息论:若一事件有k种结果,对应的概率为Pi。则此事件发生后所得到的信息量I(视为Entropy)为:I=-(p1*log2(p1)+ p2*log2(p2)+…+ pk*log2(pk)) Example 1: 设 k=4?p1=0.25,p2=0.25,p3=0.25,p4=0.25 I=-(.25*log2(.25)*4)=2 Example 2: 设k=4?p1=0,p2=0.5,p3=0,p4=0.5I=-(.5*log2(.5)*2)=1 Example 3: 设 k=4?p1=1,p2=0,p3=0,p4=0 I=-(1*log2(1))=0 * * * * 信息增益 * Example(Gain) n=16 n1=4 I(16,4)=-((4/16)*log2(4/16)+(12/16)*log2(12/16))=0.8113 E(年龄)=(6/16)*I(6,1)+(10/16)*I(10,3)=0.7946 Gain(年龄)=I(16,4)-E(年龄)=0.0167 Gain(年龄)=0.0167 Max:作为第一个分类依据 * Gain(性别)=0.0972 Gain(家庭所得)=0.0177 Example(续) * Gain(家庭所得)=0.688 I(7,3)=-((3/7)*log2(3/7)+(4/7)*log2(4/7))=0.9852 Gain(年龄)=0.9852 Gain(年龄)=0.2222 I(9,1)=-((1/9)*log2(1/9)+(8/9)*log2(8/9))=0.5032 Gain(家庭所得)=0.5032 * Example(end)ID3算法 * 分类规则: IF性别=Female AND家庭所得= 低所得THEN购买RV房车=否 IF性别=Female AND家庭所得= 小康THEN购买RV房车=否 IF性别=Female AND家庭所得= 高所得THEN购买RV房车=是 IF性别=Ma
您可能关注的文档
最近下载
- 上市公司数据资产入表案例分析与启示.pptx VIP
- 《工贸企业有限空间作业安全规定》(应急管理部13号令)培训.pptx VIP
- 应收账款账期到期提醒台账模板.xlsx VIP
- 《中华人民共和国民用航空法》培训解读课件.pptx VIP
- 02《红楼梦》整本书阅读回目自测(21-40回)(分层练习)-2024-2025学年高一语文同步精品讲练(统编版必修下册)解析版.docx VIP
- 防护棚安全通道搭设施工方案1.docx VIP
- 街区市集规划案.pptx VIP
- 污水零直排运维台账.docx VIP
- 2025年重庆市永川区社区工作者招聘考试笔试试题(含答案).pdf
- 安全生产治本攻坚三年行动PPT课件.pptx VIP
文档评论(0)