GINIIndex的算法—為IBMIntelligentMiner所使用的方法.docVIP

GINIIndex的算法—為IBMIntelligentMiner所使用的方法.doc

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
GINIIndex的算法—為IBMIntelligentMiner所使用的方法

GINI Index的算法—為IBM Intelligent Miner所使用的方法 Gini索引值: 針對數值型態的屬性來做分類, 若樣本集合D中包含 n 類樣本,則Gini索引法將樣本集合D的Gini索引值定義為 100個人中若50會買電腦, 50個不會買電腦, 則Gini=1-(0.52+o.52)=0.5 100個人中若10會買電腦, 90個不會買電腦, 則Gini=1-(0.12+o.92)=0.18 所以分配平均, Gini值越小, 基本上要選Gini索引值小的屬性當分割點 年齡 婚姻 收入 購買筆記型電腦 24 單身 高 否 28 單身 中 否 35 單身 低 是 32 已婚 中 否 40 已婚 低 否 42 已婚 低 否 38 已婚 中 否 29 單身 高 否 22 已婚 低 否 33 已婚 中 否 25 已婚 高 是 50 已婚 中 否 35 單身 中 是 45 已婚 低 否 37 單身 中 是 18 單身 低 否 所有樣本 P(會買) N(不會買電腦) 總數 4 12 年齡 P N 30 1 5 = 30 3 7 婚姻 P N 單身 3 4 已婚 1 8 收入 P N 低 1 5 中 2 5 高 1 2 ■假設第一個選取的屬性為年齡 *考慮分割點為年齡=30 則年齡30的子集合當中有1個正例、5個反例,故   p1 =1/16、 p2=5/16,Gini索引值為 年齡( 30的子集合當中有3個正例、7個反例,故   p1 =3/16、p2=7/16,此子集合之Gini索引值為              = 1( (3/16)2( (7/16)2=0.773 *考慮分割點為年齡=40 則年齡40的子集合當中有4個正例、8個反例,故   p1 =4/16、 p2=8/16,Gini索引值為 = 1( (4/16)2( (8/16)2 = 0.6875 年齡( 40的子集合當中有0個正例、4個反例,故   p1 =0/16、p2=4/16,此子集合之Gini索引值為             = 1( (0/16)2( (4/16)2 = 0.9375 由於Gini’(40)Gini’(30),因此將分割點設定在”年齡 = 40”會比設定在”年齡 = 30”好 2 gini.doc

文档评论(0)

busuanzi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档