- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
判别分析
§1 判别分析的基本原理
判别分析是在研究对象用某种方法已经分成若干类的情况下,根据各类的个体(样本)数据建立数学(判别)模型,根据判别模型和新个体(待判样品)的数据,判断待判样品属于已知类别中哪一类。
下面通过两个案例说明判别分析的基本思路。
一.案例
假设已用某种方法将27个地区城镇居民月平均消费划分成了低消费型(G1)和高消费型(G2)。低消费型(G1)有20个地区,高消费型(G2)有7个地区,即n1=20,n2=7。
现有一个A地区(称为待判样品),不知它属于G1还是属于G2。A地区的“非商品支出”和“副食品支出”分别为7.90和39.65,用向量表示:
问题:如何建立一个数学模型(找一个函数),并用此模型判断A地区属于高消费型(G1)还是属于低消费型(G2)?
27个地区的数据见表1。
表1 27个地区城镇居民月平均消费数据[2] (单位:元/人)
样品
编号 低消费型(G1) 样品
编号 高消费型(G2) 非商品支出
(x1) 副食支出
(x2) 非商品支出
(x1) 副食支出
(x2) 1 11.21 23.53 1 14.69 52.41 2 10.51 23.75 2 14.57 52.65 3 10.32 30.50 3 16.30 55.85 4 10.00 29.20 4 11.57 44.68 5 9.76 27.93 5 11.69 45.79 6 11.35 27.98 6 14.87 50.37 7 10.81 28.64 7 16.61 48.44 8 12.65 28.12 9 12.17 28.20 10 11.96 28.12 A 7.9 39.65 11 13.61 29.85 12 12.88 36.05 13 11.67 37.69 14 13.23 38.69 15 11.28 37.75 16 13.25 35.71 17 13.29 39.77 18 14.80 40.91 19 10.10 33.70 20 10.39 35.02 均值 11.76 32.06 均值 14.33 50.03
我们将这27个地区的“非商品支出”和“副食品支出”在直角座标系中用对应的点标出,这个图形称为“散点图”。
在直角座标系中,用横座标(X—轴)表示“非商品支出”,用纵座标(Y—轴)表示“副食品支出”。蓝色的点表示高消费地区,红色的点表示低消费地区。
从散点图中可以看出,蓝色的点和红色的点之间界限比较分明,蓝色的点在第一象限的上半部,红色的点在第一象限的下半部。
实际上,可用数学统计方法求出一条直线,把蓝色的点和红色的点和分割开来。见“图2—散点+判别直线图”。
图2中的这条直线称为“判别直线”,其解析表达式为:
如果要判断一个新的地区是属于“高消费型”还是“低消费型”,只需将该地区的“非商品支出”(X轴座标)和“副食品支出”(Y轴座标)在图2中用“点”标出,看其在“判别直线”的下面还是在上面即可作出判断。
现有一个地区的“非商品支出”和“副食品支出”数据如下
在图3中标出该点,用“(”标出。容易看出,“(”位于“判别直线”的下面,因此该地区属于“低消费型”。
以上只是给出了判别分析简单的、直观的几何意义,以使我们对判别分析有一个初步的、直观的理解,掌握判别分析的基本思想。
实际情况比这要复杂得多,当指标很多时,例如,有5个指标时,每一组5维数据就对应着5维空间的一个点,这时,其几何意义就没有这么直观了。因此,需要给出一个有效的数学方法。
我们将两类地区的变量值标在平面直角坐标中,高消费G2地区的点用“(”表示;低消费G1地区的点用“(”表示,它们的“重心”用“o”表示。两类地区的点很明显地分布在直线
y(X)=(0.77x1+0.31x2+28.42 (1-2)
的上下两个区域。待判地区用点“(”表示。从图1-1可观察到,待判地区的点“(”到G1重心的距离比到G2重心的距离要短,并且位于直线的下方,所以,应判属于G1。
二.案例2
下面通过实例说明判别分析在税务稽查(判别逃税)中的应用。
根据某市27个商业企业某年的“资产负债表”和“损益表”中的数据算出了24个指标,表2中选取了其中的两个指标“流动资产周转次数”和“股东权益利润率”。
根据经验和税务核查的资料,税务局已经知道在这27个企业中,有7个企业属于“诚实申报”,有20个企业属于“不诚实申报”。
又已知A企业的数据:x15=3.509,x22=0.37。
问题:如何建立一个数学模型,并用此模型判断A企业(称为待判样品)属于“诚实申报”((1)还是属于“不诚实申报”((2)?
您可能关注的文档
- 2015版药典化学药物(原料药和制剂)稳定性试验研究指导原则….doc
- 2015版自考管理学原理(袖珍)….doc
- 2015半导体物理实验七-太阳能电池….doc
- 2015宝塔中学周超….doc
- 2015保教知识与能力大纲梳理….doc
- 2015保险代理人资格考试权威模拟卷6….doc
- 2015保险代理人资格考试权威模拟卷14….doc
- 2015北京春季会考生物试卷….doc
- 2015北京春季生物会考试卷及答案….doc
- 2015北京高考压轴卷理综试题….doc
- 剧本杀行业报告:内容创作规范与剧本市场拓展策略.docx
- 剧本杀行业区域市场区域文化特色与市场潜力分析报告.docx
- 剧本杀行业区域市场拓展实战案例研究.docx
- 剧本杀行业区域市场拓展路径与模式探索报告.docx
- 剧本杀行业区域市场竞争态势与品牌差异化策略研究报告.docx
- 剧本杀行业2025年西北区域市场市场细分领域竞争态势与品牌竞争策略分析研究报告.docx
- 剧本杀行业2025年西北市场拓展前景预测报告.docx
- 剧本杀行业2025年长沙市场发展潜力分析报告.docx
- 剧本杀行业2025年长三角市场竞争策略与布局分析.docx
- 医疗行业数据合规:2025年数据安全法实施后的合规监管挑战与应对.docx
文档评论(0)