- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
YES NO 年 龄 职 业 YES 缴费方式 YES YES NO YSES NO NO 在网时长 NO F1 F2 F3 N1 N2 N3 T1 T2 T3 Z1 Z2 Z3 H1 H2 费用变化率 第6章 决策树 决策树算法 ID3算法实际应用-在电信行业应用实例(6) 在图中,NO表示客户不流失,YES表示客户流失。从图可以看出,客户费用变化率 为100%的客户肯定已经流失;而费用变化率低于30%的客户;即每月资费相对稳定的客 户一般不会流失,费用变化率在30%~99%的客户有可能流失,其中年龄在40~50岁之间 的客户流失的可能性非常大,而年龄低于40岁的客户,用充值卡缴费的客户和在网时间较 短的客户容易流失;年龄较大的客户,则工人容易流失。 主要内容 决策树基本概念 决策树算法 决策树研究问题 主要参考文献 第6章 决策树 CLS算法问题 决策树算法 采用不同的测试属性及其先后顺序将会生成不同的决策树 鸡肉 猪肉 猪肉 牛肉 牛肉 牛肉 不缺钙(2) 缺钙(3,6) 不缺钙(4) 不缺钙(10) 缺钙(5) 不缺钙(1) 鱼肉 缺钙(5) 不缺钙(7,9) 是 否 是 否 否 否 否 否 否 是 是 是 是 是 第6章 决策树 牛奶 不缺钙 (1,2,4, 7,9,10) 缺钙 (3,5,6,8) CLS算法问题 决策树算法 在上例中,显然生成的两种决策树的复杂性和分类意义相差 很大由此可见,选择测试属性是决策树学习算法中需要研究的重 要课题。 第6章 决策树 ID3 决策树算法 ID3算法主要针对属性选择问题。是决策树学习方法中最 具影响和最为典型的算法。 该方法使用信息增益度选择测试属性。 当获取信息时,将不确定的内容转为确定的内容,因此信 息伴着不确定性。 从直觉上讲,小概率事件比大概率事件包含的信息量大。 如果某件事情是“百年一见”则肯定比“习以为常”的事件包含的 信息量大。 如何度量信息量的大小? 第6章 决策树 ID3 –信息量大小的度量 决策树算法 Shannon1948年提出的信息论理论。事件ai的信息量I( ai )可 如下度量: 其中p(ai)表示事件ai发生的概率。 假设有n个互不相容的事件a1,a2,a3,….,an,它们中有且仅有一个 发生,则其平均的信息量可如下度量: 第6章 决策树 ID3 –信息量大小的度量 决策树算法 上式,对数底数可以为任何数,不同的取值对应了熵的不同单位。 通常取2,并规定当p(ai)=0时 =0 公式1 在决策树分类中,假设S是训练样本集合,|S|是训练样本数,样本 划分为n个不同的类C1,C2,….Cn,这些类的大小分别标记为|C1|, |C2|,…..,|Cn|。则任意样本S属于类Ci的概率为: 第6章 决策树 ID3 –信息量大小的度量 决策树算法 Entropy(S,A)=∑(|Sv|/|S|)* Entropy(Sv)公式2 ∑是属性A的所有可能的值v,Sv是属性A有v值的S子集 |Sv|是Sv 中元素的个数;|S|是S中元素的个数。 第6章 决策树 ID3 –信息量大小的度量 决策树算法 Gain(S,A)是属性A在集合S上的信息增益 Gain(S,A)= Entropy(S) -Entropy(S,A) 公式3 Gain(S,A)越大,说明选择测试属性对分类提供的信息越多 第6章 决策树 不买 优 否 中 老 63 买 优 否 中 老 1 买 良 是 高 中 32 买 优 否 中 中 32 买 优 是 中 青 64 买 良 是 中 老 132 买 良 是 低 青 64 不买 良 否 中 青 128 买 优 是 低 中 64 不买 优 是 低 老 64 买 良 是 低 老 64 买 良 否 中 老 60 买 良 否 高 中 128 不买 优 否 高 青 64 不买 良 否 高 青 64 归类:买计算机? 信誉 学生 收入 年龄 计数 决策树算法 第6章 决策树 不买 优 否 中 老 63 买 优 否 中 老 1 买 良 是 高 中 32 买 优 否 中 中 32 买 优 是 中 青 64 买 良 是 中 老 132 买 良 是 低 青 64 不买 良 否 中 青 128 买 优 是 低 中 64 不买 优 是 低 老 64 买 良 是 低 老 64 买 良 否 中 老 60 买 良 否 高 中 128 不买 优 否 高 青 64 不买 良 否 高 青 64 归类:买计算机? 信誉 学生 收入 年龄 计数 第1步计算决策属性的熵 决
您可能关注的文档
最近下载
- 金属非金属矿山重大事故隐患判定标准-尾矿库.pptx VIP
- 解读金属非金属露天矿山重大事故隐患判定标准.pptx VIP
- 清华大学航空应用产业研究院建设方案讨论稿.pptx VIP
- 《如何上好一堂数学课》新教师数学教学培训PPT课件(2025).pptx VIP
- 金属非金属矿山重大事故隐患判定标准解读.pptx VIP
- 2025年成都天府一街初一入学语文分班考试真题含答案.docx VIP
- 2025年成都铁中府河小升初入学分班考试语文考试试题及答案.docx VIP
- 搭建产业技术研发和转化平台方案.docx VIP
- 产业技术研究院(新型研发机构)筹建方案.docx VIP
- 高一三角函数习题(含答案).doc VIP
文档评论(0)