2015多元统计回归06章—判别….doc

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
判别分析 §1 判别分析的基本原理 判别分析是在研究对象用某种方法已经分成若干类的情况下,根据各类的个体(样本)数据建立数学(判别)模型,根据判别模型和新个体(待判样品)的数据,判断待判样品属于已知类别中哪一类。 下面通过两个案例说明判别分析的基本思路。 一.案例 假设已用某种方法将27个地区城镇居民月平均消费划分成了低消费型(G1)和高消费型(G2)。低消费型(G1)有20个地区,高消费型(G2)有7个地区,即n1=20,n2=7。 现有一个A地区(称为待判样品),不知它属于G1还是属于G2。A地区的“非商品支出”和“副食品支出”分别为7.90和39.65,用向量表示: 问题:如何建立一个数学模型(找一个函数),并用此模型判断A地区属于高消费型(G1)还是属于低消费型(G2)? 27个地区的数据见表1。 表1 27个地区城镇居民月平均消费数据[2] (单位:元/人) 样品 编号 低消费型(G1) 样品 编号 高消费型(G2) 非商品支出 (x1) 副食支出 (x2) 非商品支出 (x1) 副食支出 (x2) 1 11.21 23.53 1 14.69 52.41 2 10.51 23.75 2 14.57 52.65 3 10.32 30.50 3 16.30 55.85 4 10.00 29.20 4 11.57 44.68 5 9.76 27.93 5 11.69 45.79 6 11.35 27.98 6 14.87 50.37 7 10.81 28.64 7 16.61 48.44 8 12.65 28.12 9 12.17 28.20 10 11.96 28.12 A 7.9 39.65 11 13.61 29.85 12 12.88 36.05 13 11.67 37.69 14 13.23 38.69 15 11.28 37.75 16 13.25 35.71 17 13.29 39.77 18 14.80 40.91 19 10.10 33.70 20 10.39 35.02 均值 11.76 32.06 均值 14.33 50.03 我们将这27个地区的“非商品支出”和“副食品支出”在直角座标系中用对应的点标出,这个图形称为“散点图”。 在直角座标系中,用横座标(X—轴)表示“非商品支出”,用纵座标(Y—轴)表示“副食品支出”。蓝色的点表示高消费地区,红色的点表示低消费地区。 从散点图中可以看出,蓝色的点和红色的点之间界限比较分明,蓝色的点在第一象限的上半部,红色的点在第一象限的下半部。 实际上,可用数学统计方法求出一条直线,把蓝色的点和红色的点和分割开来。见“图2—散点+判别直线图”。 图2中的这条直线称为“判别直线”,其解析表达式为: 如果要判断一个新的地区是属于“高消费型”还是“低消费型”,只需将该地区的“非商品支出”(X轴座标)和“副食品支出”(Y轴座标)在图2中用“点”标出,看其在“判别直线”的下面还是在上面即可作出判断。 现有一个地区的“非商品支出”和“副食品支出”数据如下 在图3中标出该点,用“(”标出。容易看出,“(”位于“判别直线”的下面,因此该地区属于“低消费型”。 以上只是给出了判别分析简单的、直观的几何意义,以使我们对判别分析有一个初步的、直观的理解,掌握判别分析的基本思想。 实际情况比这要复杂得多,当指标很多时,例如,有5个指标时,每一组5维数据就对应着5维空间的一个点,这时,其几何意义就没有这么直观了。因此,需要给出一个有效的数学方法。 我们将两类地区的变量值标在平面直角坐标中,高消费G2地区的点用“(”表示;低消费G1地区的点用“(”表示,它们的“重心”用“o”表示。两类地区的点很明显地分布在直线 y(X)=(0.77x1+0.31x2+28.42 (1-2) 的上下两个区域。待判地区用点“(”表示。从图1-1可观察到,待判地区的点“(”到G1重心的距离比到G2重心的距离要短,并且位于直线的下方,所以,应判属于G1。 二.案例2 下面通过实例说明判别分析在税务稽查(判别逃税)中的应用。 根据某市27个商业企业某年的“资产负债表”和“损益表”中的数据算出了24个指标,表2中选取了其中的两个指标“流动资产周转次数”和“股东权益利润率”。 根据经验和税务核查的资料,税务局已经知道在这27个企业中,有7个企业属于“诚实申报”,有20个企业属于“不诚实申报”。 又已知A企业的数据:x15=3.509,x22=0.37。 问题:如何建立一个数学模型,并用此模型判断A企业(称为待判样品)属于“诚实申报”((1)还是属于“不诚实申报”((2)?

文档评论(0)

x5511167 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档