- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
GINIIndex的算法—為IBMIntelligentMiner所使用的方法
GINI Index的算法—為IBM Intelligent Miner所使用的方法
Gini索引值: 針對數值型態的屬性來做分類, 若樣本集合D中包含 n 類樣本,則Gini索引法將樣本集合D的Gini索引值定義為
100個人中若50會買電腦, 50個不會買電腦, 則Gini=1-(0.52+o.52)=0.5
100個人中若10會買電腦, 90個不會買電腦, 則Gini=1-(0.12+o.92)=0.18
所以分配平均, Gini值越小, 基本上要選Gini索引值小的屬性當分割點
年齡 婚姻 收入 購買筆記型電腦 24 單身 高 否 28 單身 中 否 35 單身 低 是 32 已婚 中 否 40 已婚 低 否 42 已婚 低 否 38 已婚 中 否 29 單身 高 否 22 已婚 低 否 33 已婚 中 否 25 已婚 高 是 50 已婚 中 否 35 單身 中 是 45 已婚 低 否 37 單身 中 是 18 單身 低 否
所有樣本 P(會買) N(不會買電腦) 總數 4 12 年齡 P N 30 1 5 = 30 3 7 婚姻 P N 單身 3 4 已婚 1 8 收入 P N 低 1 5 中 2 5 高 1 2
■假設第一個選取的屬性為年齡
*考慮分割點為年齡=30
則年齡30的子集合當中有1個正例、5個反例,故
p1 =1/16、 p2=5/16,Gini索引值為
年齡( 30的子集合當中有3個正例、7個反例,故
p1 =3/16、p2=7/16,此子集合之Gini索引值為
= 1( (3/16)2( (7/16)2=0.773
*考慮分割點為年齡=40
則年齡40的子集合當中有4個正例、8個反例,故
p1 =4/16、 p2=8/16,Gini索引值為
= 1( (4/16)2( (8/16)2 = 0.6875
年齡( 40的子集合當中有0個正例、4個反例,故
p1 =0/16、p2=4/16,此子集合之Gini索引值為
= 1( (0/16)2( (4/16)2 = 0.9375
由於Gini’(40)Gini’(30),因此將分割點設定在”年齡 = 40”會比設定在”年齡 = 30”好
2
gini.doc
文档评论(0)