数据挖掘第三次作业0801303吕良.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三次作业 1、请用ID3进行决议树概括,根据表1给出的14个例子,结构对于天气状况的决议树。 天气状况的决议树用图形表示为: 2、考虑一个二值分类问题,属性集和属性值如下。 ●空调={可用,不可用}。 ●引擎={好,差}。 ●行车里程={高,中,低}。 ●生锈={是,否}。 假定一个鉴于规划的分类器产生的规则集如下。 a)这些规则是互斥的吗 b)这些规则集是完全的吗答: (a)不是互斥的 因为{空调=不可用,行车里程=低}会触发两条规则 (b)也不是完全的 因为{行车里程=中}的记录没有被规则覆盖 3、考虑表2中的一维数据集。 a)根据1—最近邻、3—最近邻、5—最近邻及9—最近邻,对数据点x=分类(使用多半表决)。 b)使用距离加权表决方法wi=1/d(x’,i)2x重复前面的剖析。 a) K-最近邻x 分类y 1 + 3 - 5 + 9 -- (b) X y - - + + + - - + - - Wi 4 100 25 4 ∑w-= w+= 4、怎样评估分类器的正确率 holdout和交错考证是两个常用的评估分类器预测正确率的技术,它们均是在给定数据集中随机取样区分数据。 holdout:将所给定的数据集随机区分红两个独立部分:一个座位训练数据集,而另一个作 为测试数据集,往常训练数据集包含初始数据集中的三分之二的数据, 而其余的三分之一则 作为测试数据集的内容。 利用训练集数据学习获得一个分类器, 然后使用测试数据集对该分 类器预测正确率进行评估, 由于仅使用初始数据集中的一部分进行学习, 因此对所得分类器 预测正确性的估计应当是悲观的估计。随机取样是 holdout方法的一种变化,在随机取样方 法中,重复利用holdout 方法进行预测正确率估计 k次,最后对这 k次所获得的预测正确率 求平均,以便获得最终的预测正确率。 k-交错考证:将初始数据集随机分为 k个互不相交的子集, S1,S2,...,Sk,每个子集大小基本 相同。学习和测试分别进行 k次,在第i次循环中,子集 Si作为测试集,其他子集则归并到 一同组成一个大训练数据集并经过学习获得相应的分类器, 也就是第一次循环,使用S2....Sk 作为训练数据集,S1作为测试数据集;而在第二次循环时,使用 S1,S3,...,Sk作为训练数 据集,S2作为测试数据集;如此下去等等。而对整个初始数据所得分类器的正确率估计则 可用k次循环中所获得的正确分类数目之和除以初始数据集的大小来获得。 在分层交错考证 中,将所区分的子集层次化以保证每个子集中的各类型散布与初始数据集中的类型散布基真相同。

文档评论(0)

152****7128 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档