2012年高教社杯数模竞赛论文.docx
PAGE \* MERGEFORMAT 2
葡萄酒的评价
【摘要】
本文通过计算样本的肯德尔和谐系数以及对葡萄酒样本进行匹配t检验,对评价结果的可信度大小和差异显著性做出判断,同时选用偏最小二乘回归分析法得出酿酒葡萄与葡萄酒理化指标之间的线性关系,并通过建立模糊综合评价模型对酿酒葡萄分级。最后建立BP神经网络模型模拟专家对葡萄酒质量的评价,根据良好的拟合效果得出能够根据理化指标来评价葡萄酒质量的结论。
问题一中,在运用Kolmogorov-Smirnov检验法对样本进行是否来自于正态分布的假设检验后,通过对样本进行匹配t检验得出两组评酒员的评价结果存在显著性差异的结论,红葡萄酒的P值以0.0353拒绝原假设,白葡萄酒的P值以0.0252拒绝原假设。对样本进行Pearson相关系数检验做出葡萄酒样品的得分排名存在显著性差异的判断。最后通过计算多等级变量相关程度的肯德尔和谐系数,第一和第二种红葡萄酒的系数分别为0.8602和0.2531,对应的白葡萄酒分别为0.4021和0.1376,说明第一组评酒员的评分结果一致性更强,因此可信度更高。
问题二中,首先对酿酒葡萄的芳香性物质采用主成分分析进行数据降维处理,并以特征根累计贡献率阈值85%的标准分别对红葡萄和白葡萄选出具有统计意义的7个和9个主成分。将其归为酿酒葡萄的理化性指标后再次进行主成分分析,分别得到红葡萄和白葡萄的10个和10个主成分。对其进行分析命名后与表征葡萄酒质量的样品得分共同作为评价指标,建立模糊综合评价模型对酿酒葡萄进行了评价分级,分级结果见表格8和表格9。
问题三中,选用能克服变量多重相关性的偏最小二乘回归分析法对酿酒葡萄和葡萄酒的理化指标建立了多元线性回归方程,并对回归方程进行拟合优度检验和回归方程整体显著性检验,说明酿酒葡萄和葡萄酒的理化指标之间存在较强的线性关系。
问题四中,建立具有非线性特点的BP神经网络模型,并通过对已有样本的学习,把酿酒葡萄和葡萄酒理化指标对于葡萄酒质量的影响反映在神经元之间相互联系的权值中,通过网络不断地自主反向调整权值,得出此模型对新样本具有很好的评价效果。从而得到酿酒葡萄和葡萄酒理化指标能够评价葡萄酒的质量的结论。
关键词 匹配t检验 肯德尔和谐系数 偏最小二乘回归分析法
主成分分析 模糊综合评价 BP神经网络
1.问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件1给出了某一年份一些葡萄酒的评价结果;
附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
请尝试建立数学模型讨论下列问题:
1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4. 分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
2.问题分析
问题1的分析
检验评酒员对每种葡萄酒样品的评价差异除在统计学上的意义之外,本问可以分为两个方面来理解:评分标准的差异和样品排名的差异。评分标准的差异考量,可以对两配对样本进行t检验,判断总体的均值是否相等得出。样品排名的一致性可以通过对各组样品得分进行Pearson相关系数的比较得出:相关程度越大,排名越一致。结果的可信度可以理解为各组品酒员评分的一致性,即评价体系的稳定性,可以采用计算多等级变量相关程度的肯德尔和谐系数来说明哪一组评酒员给出的结果更为可信。
问题2的分析
酿酒葡萄的理化指标较多,因此考虑用主成分分析法进行数据降维处理。葡萄酒质量的优劣则可以由可信度较高一组评酒员的评分表征,进一步量化为具体数值。分级时,考虑根据酿酒葡萄的理化指标和葡萄酒的质量分别对酿酒葡萄做出评价,但可能出现在两个指标中同一种酿酒葡萄分级的趋势不一致的情形,即同一种酿酒葡萄对于两种不同的指标有不同的隶属程度,因此可以运用模糊综合评价法对酿酒葡萄进行评价分级。
问题3的分析
分析酿酒葡萄以及葡萄酒理化指标之间的联系,可以选用经典多元线性回归分析法。但是由于酿酒葡萄和葡萄酒同时具有较多的理化指标,且各自的理化指标之间可能存在较大的多重相关性,可能导致模型参数的最小二乘估计失真,使回归系数因为估计值的稳定性不高,而在统计检验中将难以通过。而偏最小二乘回归能很好的克服变量的多重相关性在系统建模中的不良作用,同时可以实现回归建模,数据结果简化以及两组变量间的相关分析。因此可以选用偏最小
原创力文档

文档评论(0)