- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
葡萄酒的类别判定
组员:杨岳、杨昊雯、张涵宇、张江、赵辉辉、赵慧娟
一、案例背景
常见的多元截面数据有两个维度,即变量的维度和观测的维度,因此,多元数据分析可以从这两个维度入手。对于变量维度的分析,既可以考虑变量的组合(如主成分分析),也可以考虑从变量中提取潜变量(如因子分析),从而达到降低数据维度的目的,得到各变量间相关关系的解释;对于观测维度的分析,可以采用不同的方法对观测分类,既可以是完全基于数据产生的(如聚类分析),也可以是数据分析之前已经给定的(如判别分析)。对于各种多元数据分析方法,又可以基于不同的数据假定或者算法细分为更多的数据分析方法。
二、数据描述
本案例试图对UCI机器学习数据库中Wine recognition 数据进行分析,从变量角度分析各变量间的相关关系,从观测角度尝试对观测进行分类,前者采用主成分分析和因子分析等方法,后者采用聚类分析和判别分析等方法。这四种方法均采用最常见、最基本的算法,因为本案例的目的是分析数据、挖掘数据中蕴含的信息,而不是比较方法的优劣。该数据为产于意大利同一地区不同种植园的3中葡萄酒的成分分析样本,三种葡萄酒的观测数目分别为59,71,48,因此观测容量为178个,共有13个变量,各变量的单位不同,由这些变量确定葡萄酒产自哪个种植园。这13个变量包括:酒精度、苹果酸、灰分、灰分的碱度、Mg、酚类、黄酮类、非黄酮类、原花色素类(酚类化合物的一种)、色度、色调、经稀释后的吸光度比值、脯氨酸(氨基酸的一种)。
三、名词解释
主成分分析:主成分分析是指将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
因子分析:因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
聚类分析:聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
判别分析:判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于判别分析问题。
四、数据图视化
在开始多元数据分析之前,我们可采用Andrew曲线图和平行坐标图两种方法展开高维数据。前者利用傅里叶变换,可以粗略地得知数据是否适合分类;后者在原始数据标准化之后,将所有维度的数据均展示在二维坐标轴上,可以判断数据在哪些变量处可以有较好的分类效果。由于描绘了所有观测的图形的展示效果不够好,因此考虑随机抽取一半的观测进行数据可视化展示,设定抽样的种子后,抽取3种葡萄酒的观测数目分别为28,37,24.
实际上,Andrew曲线图(图一)表明,第1类数据和第2类数据混杂程度较高,体现了较强的相似性,这在后面的分析中也会体现出来;但总的来说,数据在t属于(2,3)时,3组数据可以较好的区分,数据的质量保证了我们可以继续进行多元数据分析。
半数观测的Andrew曲线图(图一)
数据的平行坐标图(图二)展示了各变量在数据分类中的表现,可以看出,V8(黄酮类),V11(色度),V14(脯氨酸)这三个变量能够较好地区分3种葡萄酒,另外单个变量的区分效果较弱,也说明有必要进行变量组合。
半数观测的平行坐标图(图二)
五、分析方法
1、主成分分析:
由于葡萄酒数据中13个变量的度量尺度存在较大差异,考虑在矩阵
您可能关注的文档
最近下载
- 冶金安全培训课件.pptx VIP
- Yamaha 雅马哈 乐器音响 MG10XU_MG10X_MG10 Owner's Manual 用户手册.pdf
- CANoe--快速入门教程.pdf VIP
- 示波表常用软件使用说明.pdf VIP
- 《数学广角—沏茶问题》说课稿.doc VIP
- 十年高考语文真题分项汇编专题06文言文阅读(人物传记类)原卷版+解析版.docx VIP
- (推荐!)2025北京中考真题语文试题及答案.pdf VIP
- 道德与法治一年级上册第二单元 校园生活真快乐 大单元整体学历案教案 教学设计附作业设计(基于新课标教学评一致性).docx VIP
- 儿童呕吐腹泻家庭护理ppt.pptx
- 2025北京中考真题语文试题及答案.doc VIP
文档评论(0)