第五章:进一步探索分类.PDF

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章:进一步探索分类.PDF

第第五五章章 ::进进一一步步探探索索分分类类 原文 :http:// / chapter-5 效效果果评评估估算算法法和和kNN 让我们回到上一章中运动项目 例子。 在那个例子中,我们编写了一个分类器程序 ,通过运动员 身高和体重来判断她参与 运动项目——体操、田径、篮球等。 上图中 Marissa Coleman ,身高6尺1寸 ,重160磅 ,我们 分类器可以正确 进行预 测 : cl = Classifier (athletesTrainingSet.txt) cl.classify ([73, 160 ) Basketball 对于身高4尺9寸 ,90磅重 人 : cl.classify ([59, 90 ) 1 Gymnastics 当我们构建完一个分类器后 ,应该问以下问题 : 分类器 准确度如何? 结果理想吗? 如何与其它分类器做比较? 训训练练集集和和测测试试集集 上一章我们一共引入了三个数据集 ,分别是女运动员、鸢尾花、加仑公里数。我们将这 些数据集分为了两个部分 ,第一部分用来构造分类器 ,因此称为训练集 ;另一部分用来 评估分类器 结果 ,因此称为测试集。训练集和测试集在数据挖掘中很常用。 数据挖掘工程师不会用同一个数据集去训练和测试程序。 因为如果使用训练集去测试分类器 ,得到 结果肯定是百分之百准确 。换种说法 ,在 评价一个数据挖掘算法 效果时 ,如果用来测试 数据集是训练集本身 一个子集 ,那 结果会极大程度趋向于好 ,所以这种做法不可取。 将数据集拆分成一大一小两个部分 做法就产生了,前者用来训练 ,后者用来测试。不 过 ,这种做法似乎也有问题 :如果分割 时候不凑巧 ,就会引发异常。比如 ,若测试集 中 篮球运动员恰巧都很矮 ,她们就会被归为马拉松运动员 ;如果又矮又轻 ,则会被归 为体操运动员。使用这样 测试集会造成评分结果非常低。相反 情况也有可能出现 , 使评分结果趋于100%准确。无论哪种情况发生 ,都不是一种真实 评价。 解决方法之一是将数据集按不同 方式拆分 ,测试多次 ,取结果 平均值。比如 ,我们 将数据集拆为均等 两份 : 我们可以先用第一部分做训练集 ,第二部分做测试集 ,然后再反过来 ,取两次测试 平 均结果。我们还可以将数据集分成三份 ,用两个部分来做训练集 ,一个部分来做测试 集 ,迭代三次 : 1. 使用Part 1和Part 训练 ,使用Part 3测试 ; . 使用Part 1和Part 3训练 ,使用Part 测试 ; 3. 使用Part 和Part 3训练 ,使用Part 1测试 ; 最后取三次测试 平均结果。 在数据挖掘中,通常 做法是将数据集拆分成十份 ,并按上述方式进行迭代测试。因此 这种方式也称为—— 十十折折交交叉叉验验证证 将数据集随机分割成十个等份 ,每次用9份数据做训练集 ,1份数据做测试集 ,如此迭代 10次。 我们来看一个示例 :假设我有一个分类器能判断某个人是否是篮球运动员。我 数据集 包含500个运动员和500个普通人。 第第一一步步 ::将将数数据据分分成成10份份 每个桶中会放50个篮球运动员 ,50个普通人 ,一共100人。 3 第第二二步步 ::重重复复以以下下步步骤骤10次次 1. 每次迭代我们保留一个桶 ,比如第一次迭代保留木桶1 ,第二次保留木桶 。 . 我们使用剩余 9个桶来训练分类器 ,比如第一次迭代使用木桶 至10来训练。 3. 我们用刚才保留 一个桶来进行测试 ,并记录结果 ,比如 :35个篮球运动员分类 正确 ,9个普通人分类正确。 第第三三步步 ::合合并并结结果果 我们可以用一张表格来展示结果 : 500个篮球运动员中有37 个人判断正确 ,500个普通人中有 80个人判断正确 ,所以我 们可以认为1000人中有65 个人判断正确 ,准确率就是65. %。通过十折交叉验证得到 评价结果肯定会比二折或者三折来得准确 ,毕竟我们使用了90% 数据进行

文档评论(0)

尐丶丑 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档