大数据背景下对葡萄酒产地溯源研究.docVIP

下载本文档

20
0
约2.43千字
约 6页
2018-10-30 发布于福建
举报
版权申诉

大数据背景下对葡萄酒产地溯源研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据背景下对葡萄酒产地溯源研究

大数据背景下对葡萄酒产地溯源研究　　摘要：研究发现葡萄酒中矿物质元素含量与产地土壤中矿物质组成有一定的关联性，通过检测葡萄酒中矿物质含量，以及相互比例，建立数学模型，可以实现葡萄酒的产地溯源。本文运用单因素方差分析、独立t检验、Duncan多重比较、主成分分析（PCA）、逐步距离判别分析、聚类分析等统计学方法成功实现了对两个葡萄酒样品的产地溯源。　　关键词：大数据葡萄酒产地溯源　　中图分类号：TS261 文献标识码：A 文章编号：1672-3791（2018）01（a）-0077-02 　　葡萄酒中矿物质元素含量与产地土壤中矿物质组成有一定的关联性[1]，通过检测葡萄酒中矿物质含量，以及相互比例，建立数学模型，可以实现葡萄酒的产地溯源。　　以Slavonia地区中16个葡萄酒2号待测样品4种矿物质的检测结果为例。　　根据每组样品所含的m种矿物质含量数据，建立矿物质含量及组成比例与产地相关联的数学模型，由于需要分析产地类型，而数据所给矿物质含量较多，不能直接判断所给元素是否都能够来代表地区特征，我们通过对矿物质含量及组成比例进行Duncan多重比较、主成分分析（PCA）等统计方法[2]筛选出部分元素作为三个产地特征元素，然后在已知总体类别的基础上，由大量各类样品的观测值建立判别模型。　　在已知1号待测样品来自Slavonia地?^，2号待测样品来自Vojvodina地区的情况下，由于Slavonia地区要对葡萄酒产地进行进一步划分，我们先建立聚类分析模型将该产地进行进一步划分，再用模型二中的判别分析法模型判断1号待测样品来自哪个具体类别。　　运用t检验来判断两个样品的归属产地。　　按照下面的公式计算t统计量：　　将置信区间设置为95%，P0.05，数据具有统计意义，说明该元素在该地区内差异比较小，并且含量数值波动不大[1]，所以可以用该元素作为该地区的特征元素，由此得出Fe、Li、Al、Be、Bi、Cr、Se、Sr、Ti、As元素符合上述条件。　　该方法是考虑葡萄酒多个变量之间的相关性的一种多元统计方法，研究如何通过原始变量的几个主要成分，即特征元素，使它们尽可能保留原始变量信息，实现降维目的。　　假设有n个样本，每个样本共有p个变量，构成一个n×p阶的数据矩阵：　　当p较大时，在p维空间中考察问题比较麻烦。为了克服这一困难，就需要进行降维处理，即用较少的综合指标代替原来较多的变量指标，而且使这些综合指标既能尽可能地反映原来指标反映的信息，同时它们之间又是彼此独立的。　　（1）利用下式将原始数据标准化：　　（2）设X已标准化，计算变量Xi*的相关系数阵式中rij为原变量的Xi与Xj之间的相关系数：　　（3）计算主成分贡献率及累计贡献率。主成分的贡献和率累计贡献率分别为：　　一般取累计贡献率达85%～95%的特征值λ1，λ2，…，λm所对应的第1，2，…，m（m≤p）个主成分。　　当选取Cu、Fe、Li等前16种矿物质元素时，累计贡献率达到了99.987%，可以作为辨别产地的指标。　　经过对数据的Duncan多重比较以及主成分分析，筛选出的5种特征元素分别是Fe、Li、Al、Cr、Ti，使用这5种元素的含量及其比例建立与产地关联的模型。进一步对这些特征元素进行判别分析，从而分类待测样品。　　所得数据见图1和图2。　　经分析，1号待测样品和Slavonia地区Mahalanobis距离最近，即1号待测样品的数据与Slavonia地区的数据具有高度相似性，所以我们可认为1号待测样品属于Slavonia地区，同理我们可认为2号待测样品属于Vojvodina地区。　　运用聚类分析（Cluster analysis）[3]，该方法在Slavonia地区葡萄酒元素含量相似的基础上收集数据进行分类、衡量不同数据源间的相似性，将Slavonia地区进行进一步分类，分到不同的簇中。　　设数据矩阵A=（xij）nxm，衡量被分类对象间的相似程度用rij=（ei，ej）表示xi，xj的相似程度，则称之为相似系数。由此得到模糊相似矩阵R=（rij）nxm，运用计算rij的欧氏距离法：　　（1）取λ1=1最大值，对于每个xi作相似类：[xj]R={xj|rij=1}，即使满足rij=1的xi和xj视为一类，构成相似类。　　（2）取λ2（λ1λ2）为次大值，从R中直接找出相似程度的元素（xi，xj）即rij≥λ2，并相应地将对应于λ1=1的等价分类中xi与xj所在的类合并为一类，即可得到λ2水平上的等价分类。　　（3）依次取λ1λ2λ3…，按步骤（2）的方法依次类推，直到合并到X成为一类为止，最后可以动态聚类。　　利用特征元素，对Slavonia