教材配套教学.ppt

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
教材配套教学

5.3.2 通过假设检验比较模型 通过假设检验来比较两个用同样训练集创建的有指导学习模型。 * 第*页,共43页 其中 E1 为模型M1的检验集分类错误率; E2 为模型M2的检验集分类错误率。 q 为 两个模型的分类错误率的平均值,即q=( E1 +E2)/ 2。 n1 和 n2 分别为检验集A和B中的实例个数。 q(1-q)是用E1 和E2计算出来的方差值。 【例5.5】 假设使用打篮球数据集进行有指导的训练得到两个分类模型M1和M2。两个模型都使用了数据集中的前8个实例作为训练数据,后7个实例作为检验数据,分类错误率分别为27.14%和19.57%。那么,两个模型的检验集性能是否存在显著差异。 分析 已知 E1 = 0.2714,E2 = 0.1957 则 q=(0.2714+0.1957)/ 2 = 0.2336 那么 方差 q(1-q)= 0.2336(1.0-0.2336)= 0.179 最后得到 * 第*页,共43页 因为Z 1.96,则认为两个模型的性能没有显著差异。 5.4 属性评估 5.4.1数值型属性的冗余检查 相关系数 (Correlation Coefficient) 度量了两个数值型属性之间的线性相关程度,对于样本用r或ρ表示,对于总体则用希腊字母rho表示。 相关系数的值介于[-1,1]之间。 正相关(Positive Correlation) 两个属性具有同时增加或减少的特性,r接近于1。 负相关(Negative Correlation) 一个属性增加而同时另一个属性减少的特性,r接近于-1。 如果r接近于0,则表示两个属性不具有线性相关性。 使用显著性检验,来排除相关性联系偶然出现的可能。 属性正向或负向高度相关,则选择其中的一个用于数据挖掘。 * 第*页,共43页 1、使用MS Excel的CORREL函数计算属性相关性 计算iris数据集中的Petal_width 和 Petal_length,Petal_width 和Sepal_width 两对属性间的相关度。 过程 1)在Excel 中加载?iris.xls数据集; 2)在一个空白单元格中输入“= CORREL(B2:B151,C2:C151)”,确定; 3)在另一个空白单元格中输入“= CORREL(B2:B151,D2:D151)”确定; 结论 两个单元格中分别显示了0.9627和-0.3661。 前一个值接近于1,说明花瓣宽度和长度之间有较强的正相关性; 后一个值说明花瓣宽度和花萼宽度之间具有一定的但较小的负相关性。 * 第*页,共43页 2、使用散点图检查属性相关性 相关系数只能表示两个属性之间的线性相关程度。 两个具有较小r值的属性仍可能存在曲线的(Curvilinear)关系。 通过散点图(Scatterplot Diagram)可以检查两个属性之间是否存在曲线相关(包括线性相关性) * 第*页,共43页 图5.7 正相关(r接近于1) 图5.8 负相关(r接近于-1) 图5.9 不线性相关(r接近于0)但曲线相关 Iris数据集两对属性的散点图 为Petal_width 和 Petal_length,Petal_width 和 Sepal_width 两对属性创建散点图。 * 第*页,共43页 图5.10 Petal_width和Petal_length的散点图 图5.11 Petal_width和Sepal_width的散点图 根据相关系数和散点图可以判断Petal_width和Petal_length之间具有较强的正相关性,Petal_width和Sepal_width之间没有相关性。 5.4.2 数值属性显著性的假设检验 使用假设检验来确定属性的显著性分数。 过程 (1)设数值型属性A具有n个类C1,C2,…,Cn,各类中该属性的均值为 , ,…, ; (2)对每一对类 Ci 和 Cj,计算显著性分数 Z 。 * 第*页,共43页 (3)若果Zij的任意一个值=1.96,则该属性是重要的。 其中 是类Ci的均值, 是类Cj的均值; vi是属性A的Ci的方差,vj是Cj的方差; ni是Ci中的实例数,nj是类Cj中的实例数。 【例5.6】 检查iris数据集中各属性的显著性分数,比较其重要性。 iris数据集各属性的显著性分数 均值 Species_name Petal_width Petal_length Sepal_width Sepal_length Setosa 0.246 1.462 3.428 5.006 Versicolor 1.326 4.26 2.77 5.936 Verginica 2.026 5.552 2.974 6.588 方差 Spec

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档