- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
地沟油的识别doc
“地沟油”的识别
摘要
“地沟油”是一种对人体危害极大的有毒物质,本文建立一个数学模型,可以根据样品成分来准确判断出此样品是否为地沟油。
问题一:需要根据已经确定类别的84组数据,建立模型用于判别未分类的组属于哪一类。题中给出数据比较充足,统计学中提供多种分类方法可以从不同角度对样品进行分类,本文讨论使用多种方法,利用SPSS软件对数据进行分析,从而建立判别地沟油的数学模型。
问题二:问题一求解完成后将数据分别代入模型,可以从多种角度辨别此样品是否为地沟油。
问题三:在得出判别函数后结模型的特性以及各种成分数据对结果的影响度适当修改模型,在确保判别分类正确的情况下尽量减少参与模型设计的样品成分,从而达到节约成本的目的。
关键词:地沟油 判别法 聚类 判别函数 SPSS
问题重述
地沟油,泛指在生活中存在的各类劣质油,如回收的食用油、反复使用的炸油等。地沟油最大来源为城市大型饭店下水道的隔油池。长期食用可能会引发癌症,对人体的危害极大。
给出优质食用油(编号1-60)和地沟油(编号61-84)的7种化学物质成分的含量,利用数据解决下面问题:
建立判别地沟油的数学模型,并对你建立的模型进行评价。
利用你所建立的模型对编号85-100的样品进行判别。
化验7种化学物质含量花费较大,能否在保证一定的准确率条件下,减少化验指标数。
问题分析
地沟油对人们的生活已经带来了很多负面影响,而且地沟油种类多样,如何准确快速地判断样品油是否为地沟油是一个必须解决的问题。而地沟油的区分不能仅靠观察其外表,还需要测试样品各种成分的含量得出更可靠的结果。本题目要求根据样品各成分的数据建立判别模型来实现对优质油与地沟油的区分,且已经给出两类样品油的多组数据。
对于问题一:给出了84组可用数据,其中1-60组划分为优质油,61-84划分为地沟油,每组样品都需要考虑7种成分。数据比较充足,可以利用统计学相关算法进行分析。此问题可以在SPSS软件工具中得到方便快捷的解答。
对于问题二:在问题一的基础上可以轻松地得到问题二的判别结果。分类模型建立完成后,代入数据求解即可。
对于问题三:由于化验全部7种化学指标过程繁琐,耗费较多时间且开销较大。因此应该在保证准确率的情况下减少化验指标。这个问题需要考虑每个指标在具体的判别函数中所占权重以及所有样品中同类指标的离散度。从而舍轻取重,并将区别不大的指标从判别函数中剔除。以此达到减小成本的目的。
综上所述,本题可看作一个分类问题,利用统计学相关算法得出分类模型。
模型假设
假设所有样品都可以分为优质油和地沟油两类;
假设只需要考虑题设7种成分;
假设优质油与地沟油之间存在可用数学模型描述的差异;
数据分析
由于数据比较多,为了得到更准确可靠的分析结果,首先对数据进行初步检测。折线图可以清晰地展示每种成分的波动空间,并且很容易发现数值突出的元素。以下是每种成分对应编号的折线图:
从图中可以清楚地看到,在一百组数据中出现了5组异常数据。这5组数据中每组都有某一种成分严重超出正常范围。为了消除对结果的影响,需要删除这5组数据。通过对照原始数据表得到这5组数据的编号分别为:14,26,42,57,70。后文中涉及到对数据的分析与计算时,都是已将异常数据排除后的结果。
另外,图中各成分在第53组数据附近出现明显的分界。成分7含量整体上升,其他成分间的差异缩小,如果在利用SPSS求解判别函数时出现类内成员被分到其他类的情况,可以参考图中分界点寻找更加合理的分组方式。
后文需要对检测指标进行缩减,需要了解每种成分所占比例,作为缩减指标的参考依据。以下是每种成分平均值得饼状图:
由图可知成分7占比重最大,而成分1最少。在综合考虑各成分所占比例与其在标准化的典型判别式函数中所占权重可推测能够被去掉的测量指标。
模型建立与求解
5.1Fisher判别模型建立与求解
5.1.1Fisher判别法的符号说明
类样品数量;
=1,2(1代表优质油,2代表地沟油); 类样品指标的一维数值线性函数;
=1,2,3,4,5,6,7; 类样品的指标; 类样品的均值向量; 类样品映射到一维特性空间后的平均值; 类样品的类内离散度; Fisher准则函数; 一维映射权向量; Fisher准则函数取得最大值的解; 类样品的类内离散度矩阵; 两类样品的类间离散度矩阵; 类内总离散度矩阵;
5.1.2 Fisher判别法的模型建立
本题所用求解模型核心内容为Fisher判别法,以下是Fisher判别法对本题内容求解的详细步骤。
5.1.2.1线性投影与Fisher准则函数
类各指标的一
原创力文档


文档评论(0)