- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对于问题1,通常使用m值法来估计条件概率以解决这种情况。 m值估计法:条件概率的估计值用下式进行估计 其中,n为训练样本中类Ci的总实例数,nc为Ci类中取值为xj的实例数,m和p是用户事先给定的参数。一般m为正整数,p是位于0与1之间的小数。 例.设m=10,p=1/4,试对前面所给的数据重新估计离散型属性的各条件概率。 是 是 单身 否 10 否 是 已婚 否 9 是 是 单身 否 8 否 否 离婚 是 7 否 是 已婚 否 6 是 是 离婚 否 5 否 否 已婚 是 4 否 是 但是 否 3 否 否 已婚 否 2 否 否 单身 是 1 拖欠贷款 年收入97K 婚姻状况 有房 tid 第二层结点的选择与首结点类似,具体选择过程如下: 对于“Sunny”的分支,从原数据集T中统计出Outlook属性值为sunny的样本作为新的数据集T。 Y F N C N F H M N T H H N F H H T Play Windy Humi Temp Outlook=S 对于Temperature属性,简单统计如下: 2 2 0 hot(T1) 1 1 0 mild(T2) 1 0 1 cool(T3) Play=no total Play=yes Temperature 对于Humidity属性,简单统计如下: 显然 1 0 1 Normal(T1) 3 3 0 high(T2) Play=no total Play=yes Humidity 3 2 1 F(T1) 1 1 0 T(T2) Play=no total Play=yes Windy 因此Sunny分支下的分裂属性可选Temperature或Humidity,若取Humidity,则其属性H和N下的记录都为相同的类,该分支算法结束。 Y F N C S N F H M S N T H H S N F H H S Play Windy Humi Temp Outlook 其分支结构如下: Humidity Sunny High Normal Play=No Play=Yes 剩下的计算类似,最后得到决策树如下: Outlook Temp Sunny High M Play=No Play=No C Play=Yes Windy False Play=Yes Play=No True Rain Play=Yes Overcast 六、信息增益和Gini Index值的另一个应用 考虑如下问题:预测贷款申请者是否会按时归还贷款,历史数据如下: 是 90K 单身 否 10 否 75K 已婚 否 9 是 85K 单身 否 8 否 220K 离异 是 7 否 60K 已婚 否 6 是 95K 离异 否 5 否 120K 已婚 是 4 否 70K 单身 否 3 否 100K 已婚 否 2 否 125K 单身 是 1 拖欠贷款 年收入 婚姻状况 有房 顾客Id 对于“年收入”属性,它是连续型变量,按前面决策树的构造方法,应该每个属性都是离散型属性。为此,应该把连续型属性划分成若干个区间,这样把该属性化为离散型属性。简单的,若划分为两个区间,如何划分? 可以用信息增益或Gini Index值方法。步骤如下: 把连续型属性值由小到大排列,取每两个值的中间值作为候选划分点: 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 然后计算按各个候选划分点划分的信息增益或GiniIndex值,例如,用Gini Index值方法如下: 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 对于候选点65,划分后类别统计如下 3 6 =65(T2) 0 1 65(T1) 类=Y 类=N 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 对于候选点72,划分后类别统计如下 3 5 =70(T2) 0 2 70(T1) 类=Y 类=N 值 类 220 125 120 100 95 90 85 75 70 60 N N N N Y Y Y N N N 172 122 110 97 92 87 80 72 65 候选划分点 对于候选点80, 对于候选点87, 对于候选点92, 对于候选点97, 对于候选点110, 对于候选点122, 对于候选点172, 最佳候选点 根据上
您可能关注的文档
- 敬业与乐业修0.ppt
- 数列在日常经济生活中的应用.ppt
- 数列的概念及函数特性.ppt
- 数字信号处理课后答案第1章.ppt
- 数字光纤通信系统.ppt
- 数字图像处理第2章.ppt
- 数字图像处理第6章二值图像处理.ppt
- 数字书写与错数订正技术.ppt
- 数字图像处理(冈萨雷斯)-2数字图像处理基础.ppt
- 数字影像线特征提取.ppt
- 基于人工智能教育平台的移动应用开发,探讨跨平台兼容性影响因素及优化策略教学研究课题报告.docx
- 高中生物实验:城市热岛效应对城市生态系统服务功能的影响机制教学研究课题报告.docx
- 信息技术行业信息安全法律法规研究及政策建议教学研究课题报告.docx
- 人工智能视角下区域教育评价改革:利益相关者互动与政策支持研究教学研究课题报告.docx
- 6 《垃圾填埋场渗滤液处理与土地资源化利用研究》教学研究课题报告.docx
- 小学音乐与美术教师跨学科协作模式构建:人工智能技术助力教学创新教学研究课题报告.docx
- 《航空航天3D打印技术对航空器装配工艺的创新与效率提升》教学研究课题报告.docx
- 教育扶贫精准化策略研究:人工智能技术在区域教育中的应用与创新教学研究课题报告.docx
- 《区块链技术在电子政务电子档案管理中的数据完整性保障与优化》教学研究课题报告.docx
- 《中医护理情志疗法对癌症患者心理状态和生活质量提升的长期追踪研究》教学研究课题报告.docx
文档评论(0)