- 1、本文档共92页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
消除候选算法
* 最佳分类属性(2) Entropy(S)= -Pos*log2Pos - Neg*log2Neg Pos, Neg分别表示S中正负实例的比例,如3个正实例,6个负实例: Entropy[3+,6-]= -3/9*log2 (3/9)-6/9*log2 (6/9) = -1/3*(-1.585)-1/3*(-0.585)=0.9182 Entropy[1+,6-]= -1/7*log2 (1/7) - 6/7*log2 (6/7) =0.5617 最佳分类属性(2) Entropy[6+,6-]=-6/12*log2 (6/12)-6/12*log2 (6/12)=1 Entropy[0+,6-]=-0/6*log2 (0/6)-6/6*log2 (6/6)=0 Entropy[6+,0-]=-6/6*log2 (6/6)-0/6*log2 (0/6)=0 如果所有的实例都为正或都为负,则熵为0, 如Pos= Neg=1/2(最均匀,平均);有则熵为1 熵的取值是 [0,1],曲线如下 更一般地,如果目标属性具有c个不同的值,那么S相对于c个状态的分类的熵定义为 Entropy(S)= 其中Pi表示第i个输出所占训练窗口中总的输出数量的比例. 最佳分类属性 为了检测每个属性的重要性,可以通过每个属性的信息增益Gain来评估其重要性,对于属性A,假设其域值为(v1,v2,…vn),则训练实例中属性的信息增益定义如下: 其中Si表示S中属性A的值为Vi的子集,|Si|表示集合的势. 通过计算各属性的信息增益,可以选择信息量最大的属性作为决策树的根节点属性. 最佳分类属性 信息增益计算举例 首先计算熵 Entropy(S)= 然后计算每个属性A的增益 Gain ID3应用举例 Day Outlook Temp. Humidity Wind Play Tennis D1 Sunny Hot High Weak No D2 Sunny Hot High Strong No D3 Overcast Hot High Weak Yes D4 Rainy Mild High Weak Yes D5 Rainy Cool Normal Weak Yes D6 Rainy Cool Normal Strong No D7 Overcast Cool Normal Weak Yes D8 Sunny Mild High Weak No D9 Sunny Cold Normal Weak Yes D10 Rainy Mild Normal Strong Yes D11 Sunny Mild Normal Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Normal Weak Yes D14 Rainy Mild High Strong No 其中9个yes正例, 5个no反例 计算信息增益选择最佳分类属性 Humidity High Normal [3+, 4-] [6+, 1-] S=[9+,5-] E=0.940 Gain(S,Humidity)=Entropy(S) -7/14*Entropy([3+,4-]) -7/14*Entropy([6+,1-]) =0.940-(7/14)*0.985 – (7/14)*0.592 =0.151 E=0.985 E=0.592 Entropy([9+,5-]) = -9/14 log2 9/14 – 5/14 log2 5/14= 0.940 其中属性Humidity=High样例有7个,3个正例,4个反例 Entropy([3+,4-]) = -3/7 log2 3/7 – 4/7 log2 4/7= 0.985 Humidity= Normal样例有7个,6个正例,1个反例 Entropy([6+,1-]) = -6/7 log2 6/7– 1/7 log2 1/7= 0.592 计算信息增益选择最佳分类属性 Wind Weak Strong [6+, 2-] [3+, 3-] S=[9+,5-] E=0.940 E=0.811 E=1.0 Gain(S,Wind)=Entropy(S) -8/14*Entropy([6+,2-]) -6/14*Entropy([3+,3-]) =0.940-(8/14)*0.811 – (6/14)*1.0 =0.048 Entropy([6+,2-]) = -6/8 log2 6/8– 2/8 log2 2/8= 0.811 Entropy([3+,3-
文档评论(0)