- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘红酒鉴别
基于数据挖掘的葡萄酒质量识别
我们知道,传统的葡萄酒鉴别靠感觉器官的品尝来判断其质量的好坏,这就必须要求品尝者是训练有素的品酒专家。但感官品尝结果容易受各种因素的影响。随着科学技术的发展,葡萄酒质量品鉴成了一项可以替代性的工作,不在局限于酿酒工作者的工作才能完成。因此,将数据挖掘方法用于葡萄酒评级早已被各国所采用。下面主要基于数据挖掘的分类和回归方法对葡萄酒质量的鉴别做一个简单的分析与判断。
数据挖掘理论方法论述
1.1主成分回归
在数据处理中,经常会遇到高维数据组,由于数据维数高,变量多,而且变量间往往存在相关关系,因此很难抓住他们的相关关系信息。在实际问题中,研究多变量问题是经常遇到的,再加上变量指标之间有一定的相关性,这势必增加了问题的复杂性,主成分分析就是设法将原来指标重新组合成一组新的互相无关的较少的综合指标来代替原来的指标,同时根据实际需要从中可取几个较少的综合指标尽可能多的反映原来指标的信息。这种将多个变量化为少数互相无关的综合指标的统计方法称为主成分分析。
主成分分析就是设法将原来众多具有一定相关性的变量重新组合成一组新的相互无关的综合指标来代替,通常数学上的处理就是将原来个变量作线性组合,作为新的综合指标,但是这种线性组合,需要加以限制。假设第一个综合指标记为,自然希望尽可能多的反映原来指标的信息,这里最经典的方法是用的方差来表达,即越大,表示包含的信息越。因此所有线性组合中所选取的应该是方差最大的,故将称为第一主成分,如果不足以代表原来个指标的信息,在满足的条件下,再考虑选取作为第二个主成分,同理可以构造第三,四,.....,第个主成分。
要求:
(1)
(2)
求得的主成分为协房阵的特征向量为系数的线性组合。得到主成分,提取所需要的前几个主要成分后,回归的过程与线性回归是一致的。只是自变量变成了选取的主成分,因变量不变。
1.2 分类回归树
1.2.1分类回归树的构建
分类回归树的构建是通过学习给定的训练样本,寻找最佳的分支规则。分类回归树的分支规则是根据不纯度作为评估度量来实现的,以寻找最佳的分支规则。最常用的不纯度函数为基尼指数,其定义为
其中是指中第类的频率,也就是说当基尼指数越小时,意味着该节点所包含的样本集越集中,该节点越纯。
树的构建大致可以这样表述为:所有的样本都属于树的根节点,寻找第一个节点的分支规则时,从第一个自变量开始,记录样本数据该变量的每个取值作为分支阈值时不纯度的下降值,直到所有变量的每个取值作为分支阈值的不纯度下降值记录完毕,选择不纯度下降值最大的自变量和分叉阈值作为树根节点的分支变量和分支阈值。如此往复生成一颗最大的树。由此过程可见,分类回归树属于贪心算法。
在构建树的过程中,满足以下条件之一,则不再对叶节点进行分支操作:
叶节点中的样本数小于给定的值,一般默认;
分支后的叶节点中的样本属于同一类;
无属性向量用于分支选择。
经过此过程,最终得到一颗最大的树
1.2.2分类回归树的修剪
为了解决所建立的最大树过分拟合的问题,需要对生成的树进行修剪,去掉那些对未知检验样本的分类精度没有帮助的部分树,使得模型更简单、更容易理解。
常用的剪枝有两种:一种是先剪枝法,一种是后剪枝法。它们都采用统计度量,剪去最不可靠的分支,提高分类回归树独立于测试数据的测试能力。
最小成本复杂度的后剪枝法较为常用,其统计度量为
其中表示复杂度参数,用于表示每个终止点复杂度的代价,当为0时,对应的最大树。为的估计错分率,为该树的估计错分类与对复杂度惩罚值之和的成本复合值。当一定时,越大,其可取性也就越小。
1.2.3分类回归树的评估
经过树的修剪,得到了一系列的子树,那么如果选择最优大小的树作为最终构建分类回归树,就需要对分类回归树进行评估,最常用的评估方法有测试样本评估和交互检验评估。文中采用的是交互检验评估。
折交互检验是将样本集平均分为个子集,每次用其中的个子集进行建模,剩下的子集用来预测,循环次,计算平均的错分率。对所生成的一系列子树分别进行折交互检验,得到个平均错分率,那么最小平均错分率对应的子树就是最优的构建树,即
2.数据处理与基本分析
2.1数据说明与预处理
葡萄酒数据来源于/ml/datasets/Wine+Quality,包含红酒和白酒两种。红酒1599个样本记录,11个表示成分和含量的自变量以及一个关于葡萄酒质量好坏的因变量。白酒则有4898个样本记录,也是11个表示成分和含量的自变量以及一个关于葡萄酒质量好坏的因变量。为简化问题,我主要讨论了红酒的质量识别,白酒的质量识别可以对照参考。本文数据分析所使用的工具主要有SPSS和R语言。首先将葡萄酒质量等级
您可能关注的文档
- 技术方案印1.doc
- 拓展训练仙山方案(2+1)郑州锦程行动成功.doc
- 拖拉机标目录.doc
- 报废汽车收拆解行业的相关资料.docx
- 招录公务专业设置指导目录.doc
- 拓展计划案-oc.doc
- 招标师专专栏:招标投标专家介绍【师资】.docx
- 招标方案非基药.doc
- 拜访客户场白话术.doc
- 招投标条及23号文的变化.doc
- 高中地理教师数字化教学画像构建与认知负荷调控策略研究教学研究课题报告.docx
- 2025年乡村研学旅行基地特色农产品开发与销售分析.docx
- 2025年乡村研学旅行基地旅游市场拓展与品牌建设策略报告.docx
- 2025年上海市氨水在食品添加剂生产中的应用可行性研究.docx
- 2025年乡村研学旅行基地特色景观打造与生态保护研究.docx
- 2025年乡村研学旅行基地旅游产品创新与产业链拓展.docx
- 绿色化学实验在高中化学教学中的创新与挑战教学研究课题报告.docx
- 区域在线教育平台运营中的人工智能个性化学习路径规划研究教学研究课题报告.docx
- 2025年乡村研学旅行基地旅游与社区共建共荣模式探索报告.docx
- 2025年乡村研学旅行基地品牌塑造与市场推广策略.docx
最近下载
- 检测单位各部门岗位职能职责.doc VIP
- 2025内蒙古鄂尔多斯市公安机关招聘留置看护警务辅助人员115人笔试参考题库附答案解析.docx VIP
- 模电教案-李国丽.doc
- 2023版中国结直肠癌及癌前病变内镜诊治共识PPT课件.pptx VIP
- 证监会现场核查工作底稿-A股首次公开发行IPO保荐底稿.docx VIP
- UIC513-1994铁路车辆乘坐舒适性评估.pdf VIP
- 2025年医学课件-右心声学造影.pptx VIP
- 企业内部控制培训课件完整版(164页PPT).ppt VIP
- 2024年秋人教版七年级英语上册全册课件:Unit 7.pptx VIP
- Unit 6 A day in the life Section B (课件)-2024-2025学年人教版英语七年级上册.pptx VIP
文档评论(0)