数据挖掘——Fisher判别摘要.pptVIP

下载本文档

2
0
约1.36千字
约 19页
2016-11-14 发布于湖北
举报
版权申诉

数据挖掘——Fisher判别摘要.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘 ——判别式分类湖南大学工商管理学院兰秋军博士副教授本讲内容判别式分类的基本思想 Fisher判别准则和判别函数应用举例基本思想一个引例设某种产品的市场情况有“畅销”和“滞销”两种，根据过去经验，产品销路好坏与价格有关，也与市民收入有关。我们希望以这两个量来预测销路的好坏。以x1表示产品价格，x2表示市民收入。设有n组观察值，其中n1组为畅销，n2组为滞销(显然n2=n-n1)，在二维坐标上，已0表示滞销点，X表示畅销点，如图所示若我们能找到分界直线 C0+c1x1+c2x2=0 则可用其进行预测。即判断（价格，收入）点落在什么区域。 X X X X X X X X X X X X X o o o o o o o o o o o o o o o o x1 x2 ？判别分析的基本思想假设有p个预测因子 ,有n组观测值，判别分析的基本思想就是：根据这些数据，在适当的判别准则下，确定判别函数：并找出临界值y0 对于待判样本，只需把其代入判别函数，将其值与临界值y0比较，从而确定其所属类别。 Fisher判别准则和判别函数 Fisher判别准则设要判别的对象分成两组，分别记做A和B（比如A代表畅销，B代表滞销）。对p个预测因子，也叫做p个判别指标。设A组有s组数据，B组有t个组数据，即n=s+t 组A 组B 假定判别函数为则组A的数据对应的判别值为则组B的数据对应的判别值为分别以两组的平均值作为两组的代表值我们通过判别值y进行判别，希望：（1）两代表值间的差距越大越好（2）同组值内部与代表值的差距越小越好综合（1）、（2），即希望越大越好因此最优判别函数的系数为函数的极大值点由微分学可知，为方程组的解 1.算出各组数据的代表，即平均值 2.计算A、B两组数据的离差矩阵P、Q 3.计算 4.计算判别系数判别步骤： 5.写出判别函数 6.算出组A组B的代表的判别值计算临界值 7.进行判别判别函数的检验进行判别分析时，有个前提条件，即要求两组数据在统计意义上有明显区别，否则判别就没有意义。为此需要进行统计检验。检验步骤如下： 1.计算统计量 2.对给定的显著性水平α,从F分布表中查出 3.检验结果：若，说明所作判别函数有效，否则判别分析无效应用举例例1 通过身高、体重判别性别的例子。例2 设某外贸公司生产一种新产品，在未正式上市前，将样品寄往12个国家的进口代理商，并附意见调查表，要求对该产品进行评估。评估的内容有式样、包装、耐久性等三个方面。评估结果采用10分制，分数越高代表其性能越好。并要求说明是否愿意购买，调查结果如表所示。今有第13个国家代理商的评分为：式样9分、包装5分耐久性4分，请预测该国是否愿意购买该产品？我们用Fisher判别函数来进行预测： 1。计算两组的平均值购买者平均得分：(8.29,6.43,6.00) 非购买者平均得分:(6.20,3.80,4.00) 2。计算两组资料的离差矩阵＝ 3。计算判别系数即判别函数为 4。求判别临界值购买组的平均值对应的判别值非购买组的平均值对应的判别值临界值