- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数学建模及数据挖掘方法
对于问题1,通常使用m值法来估计条件概率以解决这种情况。 m值估计法:条件概率的估计值用下式进行估计 其中,n为训练样本中类Ci的总实例数,nc为Ci类中取值为xj的实例数,m和p是用户事先给定的参数。一般m为正整数,p是位于0与1之间的小数。 例.设m=10,p=1/4,试对前面所给的数据重新估计离散型属性的各条件概率。 是 是 单身 否 10 否 是 已婚 否 9 是 是 单身 否 8 否 否 离婚 是 7 否 是 已婚 否 6 是 是 离婚 否 5 否 否 已婚 是 4 否 是 但是 否 3 否 否 已婚 否 2 否 否 单身 是 1 拖欠贷款 年收入97K 婚姻状况 有房 tid 第二层结点的选择与首结点类似,具体选择过程如下: 对于“Sunny”的分支,从原数据集T中统计出Outlook属性值为sunny的样本作为新的数据集T。 Y F N C N F H M N T H H N F H H T Play Windy Humi Temp Outlook=S 对于Temperature属性,简单统计如下: 2 2 0 hot(T1) 1 1 0 mild(T2) 1 0 1 cool(T3) Play=no total Play=yes Temperature 对于Humidity属性,简单统计如下: 显然 1 0 1 Normal(T1) 3 3 0 high(T2) Play=no total Play=yes Humidity 3 2 1 F(T1) 1 1 0 T(T2) Play=no total Play=yes Windy 因此Sunny分支下的分裂属性可选Temperature或Humidity,若取Humidity,则其属性H和N下的记录都为相同的类,该分支算法结束。 Y F N C S N F H M S N T H H S N F H H S Play Windy Humi Temp Outlook 其分支结构如下: Humidity Sunny High Normal Play=No Play=Yes 剩下的计算类似,最后得到决策树如下: Outlook Temp Sunny High M Play=No Play=No C Play=Yes Windy False Play=Yes Play=No True Rain Play=Yes Overcast 六、信息增益和Gini Index值的另一个应用 考虑如下问题:预测贷款申请者是否会按时归还贷款,历史数据如下: 是 90K 单身 否 10 否 75K 已婚 否 9 是 85K 单身 否 8 否 220K 离异 是 7 否 60K 已婚 否 6 是 95K 离异 否 5 否 120K 已婚 是 4 否 70K 单身 否 3 否 100K 已婚 否 2 否 125K 单身 是 1 拖欠贷款 年收入 婚姻状况 有房 顾客Id 对于“年收入”属性,它是连续型变量,按前面决策树的构造方法,应该每个属性都是离散型属性。为此,应该把连续型属性划分成若干个区间,这样把该属性化为离散型属性。简单的,若划分为两个区间,如何划分? 可以用信息增益或Gini Index值方法。步骤如下: 把连续型属性值由小到大排列,取每两个值的中间值作为候选划分点: 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 然后计算按各个候选划分点划分的信息增益或GiniIndex值,例如,用Gini Index值方法如下: 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 对于候选点65,划分后类别统计如下 3 6 =65(T2) 0 1 65(T1) 类=Y 类=N 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 对于候选点72,划分后类别统计如下 3 5 =70(T2) 0 2 70(T1) 类=Y 类=N 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 对于候选点80, 对于候选点87, 对于候选点92, 对于候选点97, 对于候选点110, 对于候选点122, 对于候选点172, 最佳候选点 根据上
您可能关注的文档
- 数学及过去现在及未来.ppt
- 数学史及科学史--07 新数学及诞生.ppt
- 数学史概论近代数学及兴起.ppt
- 数学史话--无穷级数及发展及数学家逸事.ppt
- 数学史课件:第四章 方程求解及代数符号化.ppt
- 数学和科学教学中及互动课程.ppt
- 数学四年级上《商不变及性质》PPT课件.ppt
- 数学复习专题: 数及代数.ppt
- 数学学习及心理基础及过程第九章课件.ppt
- 数学实验4-1微积分问题及计算机求解.ppt
- 数学建模及系统仿真.ppt
- 数学建模在独立学院数学教学及改革中及地位及作用(南开大学滨海学院-韩晓光).ppt
- 数学建模及运筹学(山东大学经济学院).ppt
- 数学建模第一章初等方法建模--1.3动物及身长和体重及关系.ppt
- 数学建模第七章图及网络方法建模--7.3设备更新及中心选址.ppt
- 数学建模第二章微积分方法建模--2.10药物在体内及分布及排除.ppt
- 数学建模第二章微积分方法建模--2.5万有引力定律及发现.ppt
- 数学建模第五讲 线性代数中及数值计算问题.ppt
- 数学建模第二章微积分方法建模--2.9如何预报人口及增长.ppt
- 数学建模讲座之八---数学建模中及数据处理方法.ppt
文档评论(0)