- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章:进一步探索分类.PDF
第第五五章章 ::进进一一步步探探索索分分类类
原文 :http:// / chapter-5
效效果果评评估估算算法法和和kNN
让我们回到上一章中运动项目 例子。
在那个例子中,我们编写了一个分类器程序 ,通过运动员 身高和体重来判断她参与
运动项目——体操、田径、篮球等。
上图中 Marissa Coleman ,身高6尺1寸 ,重160磅 ,我们 分类器可以正确 进行预
测 :
cl = Classifier (athletesTrainingSet.txt)
cl.classify ([73, 160 )
Basketball
对于身高4尺9寸 ,90磅重 人 :
cl.classify ([59, 90 )
1
Gymnastics
当我们构建完一个分类器后 ,应该问以下问题 :
分类器 准确度如何?
结果理想吗?
如何与其它分类器做比较?
训训练练集集和和测测试试集集
上一章我们一共引入了三个数据集 ,分别是女运动员、鸢尾花、加仑公里数。我们将这
些数据集分为了两个部分 ,第一部分用来构造分类器 ,因此称为训练集 ;另一部分用来
评估分类器 结果 ,因此称为测试集。训练集和测试集在数据挖掘中很常用。
数据挖掘工程师不会用同一个数据集去训练和测试程序。
因为如果使用训练集去测试分类器 ,得到 结果肯定是百分之百准确 。换种说法 ,在
评价一个数据挖掘算法 效果时 ,如果用来测试 数据集是训练集本身 一个子集 ,那
结果会极大程度趋向于好 ,所以这种做法不可取。
将数据集拆分成一大一小两个部分 做法就产生了,前者用来训练 ,后者用来测试。不
过 ,这种做法似乎也有问题 :如果分割 时候不凑巧 ,就会引发异常。比如 ,若测试集
中 篮球运动员恰巧都很矮 ,她们就会被归为马拉松运动员 ;如果又矮又轻 ,则会被归
为体操运动员。使用这样 测试集会造成评分结果非常低。相反 情况也有可能出现 ,
使评分结果趋于100%准确。无论哪种情况发生 ,都不是一种真实 评价。
解决方法之一是将数据集按不同 方式拆分 ,测试多次 ,取结果 平均值。比如 ,我们
将数据集拆为均等 两份 :
我们可以先用第一部分做训练集 ,第二部分做测试集 ,然后再反过来 ,取两次测试 平
均结果。我们还可以将数据集分成三份 ,用两个部分来做训练集 ,一个部分来做测试
集 ,迭代三次 :
1. 使用Part 1和Part 训练 ,使用Part 3测试 ;
. 使用Part 1和Part 3训练 ,使用Part 测试 ;
3. 使用Part 和Part 3训练 ,使用Part 1测试 ;
最后取三次测试 平均结果。
在数据挖掘中,通常 做法是将数据集拆分成十份 ,并按上述方式进行迭代测试。因此
这种方式也称为——
十十折折交交叉叉验验证证
将数据集随机分割成十个等份 ,每次用9份数据做训练集 ,1份数据做测试集 ,如此迭代
10次。
我们来看一个示例 :假设我有一个分类器能判断某个人是否是篮球运动员。我 数据集
包含500个运动员和500个普通人。
第第一一步步 ::将将数数据据分分成成10份份
每个桶中会放50个篮球运动员 ,50个普通人 ,一共100人。
3
第第二二步步 ::重重复复以以下下步步骤骤10次次
1. 每次迭代我们保留一个桶 ,比如第一次迭代保留木桶1 ,第二次保留木桶 。
. 我们使用剩余 9个桶来训练分类器 ,比如第一次迭代使用木桶 至10来训练。
3. 我们用刚才保留 一个桶来进行测试 ,并记录结果 ,比如 :35个篮球运动员分类
正确 ,9个普通人分类正确。
第第三三步步 ::合合并并结结果果
我们可以用一张表格来展示结果 :
500个篮球运动员中有37 个人判断正确 ,500个普通人中有 80个人判断正确 ,所以我
们可以认为1000人中有65 个人判断正确 ,准确率就是65. %。通过十折交叉验证得到
评价结果肯定会比二折或者三折来得准确 ,毕竟我们使用了90% 数据进行
文档评论(0)