数据挖掘第三次作业0801303吕良.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
v1.0 可编辑可修改 第三次作业 1、请用 ID3 进行决策树归纳,根据表 1 给出的 14 个例子,构造关于天气状况的 决策树。 天气状况的决策树 用图形表示为 : 1 v1.0 可编辑可修改 2、考虑一个二值分类问题,属性集和属性值如下。 ● 空调 = { 可用,不可用 }。 ● 引擎 ={ 好,差}。 ● 行车里程 = { 高,中,低 } 。 ● 生锈 ={ 是,否}。 假设一个基于规划的分类器产生的规则集如下。 a)这些规则是互斥的吗 b)这些规则集是完全的吗答: 不是互斥的 因为 { 空调 =不可用,行车里程 = 低 } 会触发两条规则 也不是完全的 2 v1.0 可编辑可修改 因为 { 行车里程 = 中} 的记录没有被规则覆盖 3、考虑表 2中的一维数据集。 a)根据 1—最近邻、 3—最近邻、 5—最近邻及 9—最近邻,对数据点 x=分类(使用多数表决)。 ( b)使用距离加权表决方法 w =1/d(x ’ , x i ) 重复前面的分析。 i 2 (a) K-最近邻 x 分类 y 1 + 3 - 5 + 9 -- (b) X y - - + + + - - + - - Wi 4 100 25 4 ∑w- = w+ = 4、如何评估分类器的准确率 holdout 和交叉验证是两个常用的评估分类器预测准确率的技术, 它们均是在给定数据集中 随机取样划分数据。 holdout :将所给定的数据集随机划分成两个独立部分:一个座位训练数据集,而另一个作 为测试数据集, 通常训练数据集包含初始数据集中的三分之二的数据, 而其余的三分之一则 3 v1.0 可编辑可修改 作为测试数据集的内容。 利用训练集数据学习获得一个分类器, 然后使用测试数据集对该分 类器预测准确率进行评估, 由于仅使用初始数据集中的一部分进行学习, 因此对所得分类器 预测准确性的估计应该是悲观的估计。 随机取样是 holdout 方法的一种变化, 在随机取样方 法中,重复利用 holdout 方法进行预测准确率估计 k 次,最后对这 k 次所获得的预测准确率 求平均,以便获得最终的预测准确率。 k- 交叉验证:将初始数据集随机分为 k 个互不相交的子集, S1, S2, ...,Sk, 每个子集大小 基本相同。学习和测试分别进行 k 次,在第 i 次循环中,子集 Si 作为测试集,其他子集则 合并到一起构成一个大训练数据集并通过学习获得相应的分类器, 也就是第一次循环, 使用 S2....Sk 作为训练数据集, S1 作为测试数据集;而在第二次循环时,使用 S1, S3,...,Sk 作为训练数据集, S2 作为测试数据集;如此下去等等。而对整个初始数据所得分类器的准 确率估计则可用 k 次循环中所获得的正确分类数目之和除以初始数据集的大小来获得。 在分 层交叉验证中, 将所划分的子集层次化以确保每个子集中的各类别分布与初始数据集中的类 别分布基本相同。 4

文档评论(0)

zdq9873 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档