商务数据挖掘介绍教授制作ln7.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
典型判别分析的图形解释 其做法是进行维数压缩,同时尽可能多地保留数据类别区分的信息 假如我们观测的是D维的数据,其中N1个点属于1类,N2个点属于2类。我们要把数据x投影到一条直线上,即:y=wTx,得到y值 在所有这些直线中,我们要找最能把这些y值按类别区分开的那条。 判别分析的短处 判别分析本质上是含参数的统计分析,要求自变量服从正态分布,如果离正态分布差很多,则效果不好 如果区分类别的主要信息不是均值而是方差,其效果也不会好 步骤 ? 第一步:通过计算单变量的?统计量,逐步选择判别变量 ?统计量最小者首先进入模型。 ? 第二步:分别计算未被选中的其它变量与选中变量x1的?统计量, 统计量?1i得值最小者与x1搭配进入模型。 ? 第三步:类推假设已经有q+1个变量进入了模型,要考虑较早选入模型得变量得重要性是否有较大得变化,应及时将其从模型中剔除。其原则与引入相同。统计量?得值最小者或F最大者保留。 ? 第四步:进行判别分析。 proc stepdisc data=fish; class Species; run; proc glm data=fish; class Species; model height=Species/nouni; manova h=Species /printe; run; proc glm data=fish; class Species; model height length2=Species/nouni; manova h=Species m=height,length2/printe; run; §3 典型判别法   一 两个总体的费歇(Fisher)判别法 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? X不能使总体单位 尽可能分开的方向 u能使总体单位 尽可能分开的方向 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个 (一)费歇判别的基本思想 Fisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,Fisher在1936年提出。 从两个总体中抽取具有P个指标的样品观测数据,借助于方差分析的思想构造一个线性判别函数: 其中系数 确定的原则是使两组间的组间离差最大,而每个组的组内离差最小。当建立了判别式以后,对一个新的样品值,我们可以将他的P个指标值代入判别式中求出Y值,然后与某个临界值比较,就可以将该样品归某类。 假设我们可以得到一个线性判别函数: 我们可以把两个总体的样品代入上面的判别式 (二)判别准则 如果由原始数据y求得判别函数得分为Y*, 对与一个样品代入判别函数中,若Y*Y0,则判给G1,否则判给G2。 二、多个总体的Fisher判别法 (一) 判别函数 Fisher判别法实际上是致力于寻找一个最能反映组和组之间差异的投影方向,即寻找线性判别函数 ,设有 个总体 ,分别有均值向量 , ,…, 和协方差阵 , 分别各总体中得到样品: 例 某种产品的生产厂家有12家,其中7家的产品受消费者欢迎,属于畅销品,定义为1类;5家的产品不大受消费者欢迎,属于滞销品,定义为2类。将12家的产品的式样,包装和耐久性进行了评估后,得分资料,今有一新得厂家,得分为(6,4,5),该厂的产品是否受欢迎。 data a; input type$ x1 x2 x3@@; cards; 1 9 8 7 1 7 6 6 1 8 7 8 1 8 5 5 1 9 9 3 1 8 9 7 1 7 5 6 2 4 4 4 2 3 6 6 2 6 3 3 2 2 4 5 2 1 2 2 ; proc print; proc candisc data=a out=outcan simple distance anova; class type; var x1 x2 x3; proc print data=outcan; run; Total-Sample Standard Va

文档评论(0)

189****6140 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档