数学建模的数据挖掘方法.pptVIP

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对于问题1,通常使用m值法来估计条件概率以解决这种情况。 m值估计法:条件概率的估计值用下式进行估计 其中,n为训练样本中类Ci的总实例数,nc为Ci类中取值为xj的实例数,m和p是用户事先给定的参数。一般m为正整数,p是位于0与1之间的小数。 例.设m=10,p=1/4,试对前面所给的数据重新估计离散型属性的各条件概率。 是 是 单身 否 10 否 是 已婚 否 9 是 是 单身 否 8 否 否 离婚 是 7 否 是 已婚 否 6 是 是 离婚 否 5 否 否 已婚 是 4 否 是 但是 否 3 否 否 已婚 否 2 否 否 单身 是 1 拖欠贷款 年收入97K 婚姻状况 有房 tid 第二层结点的选择与首结点类似,具体选择过程如下: 对于“Sunny”的分支,从原数据集T中统计出Outlook属性值为sunny的样本作为新的数据集T。 Y F N C N F H M N T H H N F H H T Play Windy Humi Temp Outlook=S 对于Temperature属性,简单统计如下: 2 2 0 hot(T1) 1 1 0 mild(T2) 1 0 1 cool(T3) Play=no total Play=yes Temperature 对于Humidity属性,简单统计如下: 显然 1 0 1 Normal(T1) 3 3 0 high(T2) Play=no total Play=yes Humidity 3 2 1 F(T1) 1 1 0 T(T2) Play=no total Play=yes Windy 因此Sunny分支下的分裂属性可选Temperature或Humidity,若取Humidity,则其属性H和N下的记录都为相同的类,该分支算法结束。 Y F N C S N F H M S N T H H S N F H H S Play Windy Humi Temp Outlook 其分支结构如下: Humidity Sunny High Normal Play=No Play=Yes 剩下的计算类似,最后得到决策树如下: Outlook Temp Sunny High M Play=No Play=No C Play=Yes Windy False Play=Yes Play=No True Rain Play=Yes Overcast 六、信息增益和Gini Index值的另一个应用 考虑如下问题:预测贷款申请者是否会按时归还贷款,历史数据如下: 是 90K 单身 否 10 否 75K 已婚 否 9 是 85K 单身 否 8 否 220K 离异 是 7 否 60K 已婚 否 6 是 95K 离异 否 5 否 120K 已婚 是 4 否 70K 单身 否 3 否 100K 已婚 否 2 否 125K 单身 是 1 拖欠贷款 年收入 婚姻状况 有房 顾客Id 对于“年收入”属性,它是连续型变量,按前面决策树的构造方法,应该每个属性都是离散型属性。为此,应该把连续型属性划分成若干个区间,这样把该属性化为离散型属性。简单的,若划分为两个区间,如何划分? 可以用信息增益或Gini Index值方法。步骤如下: 把连续型属性值由小到大排列,取每两个值的中间值作为候选划分点: 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 然后计算按各个候选划分点划分的信息增益或GiniIndex值,例如,用Gini Index值方法如下: 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 对于候选点65,划分后类别统计如下 3 6 =65(T2) 0 1 65(T1) 类=Y 类=N 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 对于候选点72,划分后类别统计如下 3 5 =70(T2) 0 2 70(T1) 类=Y 类=N 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 对于候选点80, 对于候选点87, 对于候选点92, 对于候选点97, 对于候选点110, 对于候选点122, 对于候选点172, 最佳候选点 根据上

您可能关注的文档

文档评论(0)

junjun37473 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档