- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【原创】
【原创】R 语言案例数据分析报告论文(附代码数据)
PAGE
PAGE 1
有问题到淘宝找“大数据部落”就可以了
WEKA 聚类算法 wine 数据集分析研究
实验目的
希望通过实验研究葡萄酒的差异化,并分析造成这种差异化的原因,可以更深刻的掌握聚类分析的原理;进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能;达到能综合运用所学基本理论和专业知识;锻炼收集、整理、运用资料的能力的目的;希望能会调用 WEKA 软件聚类分析有关过程命令,并且可以对数据处理结果进行正确判断分析,作出综合评价。
实验数据
Wine
Wine 这份数据集包含来自 3 种不同起源的葡萄酒的共 178 条记录。13 个属性是葡萄酒的 13 种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。
数据集特征:
多变量
记录数:
178
领域:
物理
属性特征:
整数,实数 属性数目: 13
捐赠日期
1991-07-01
相关应用:
分类
缺失值?
无
网站点击数: 337319
该实验的数据集是 MostPopular Data Sets(hits since 2007)中的wine 数据集,这是是对在意大利同一地区生产的三种不同品种的酒,做大量分析所得出的数据。这些数据包括了三种酒中 13 种不同成分的数量。
经过几天对数据集以及分类算法的研究,详细研究了朴素贝叶斯分类器和其他学习算法,包括决策树和神经网络等等。同时由于这个数据集有 13 个属性,用决策树实现起来会很复杂。我最终选择了用贝叶斯分类算法来实现。我将 178 个样本分成 118 个训练样本和 60 个测试样本,采用朴素贝叶斯分类算法,计算出先验概率和后验概率,通过比较概率的最大值,判别出测试样本所属于的酒的类型, 同时输出测试样本计算的正确率和错误率。
这些数据包括了三种酒中 13 种不同成分的数量。13 种成分分别为:Alcohol, Malicacid,Ash,Alcalinity of ash,Magnesium ,Total phenols,Flavanoids, Nonflavanoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline。在 “wine.data”文件中,每行代表一种酒的样本,共有178 个样本;一共有 14 列,其中,第一列为类标志属性,共有三类,分别记为
“1”,“2”,“3”;后面的 13 列为每个样本的对应属性的样本值。其中第 1
类有 59 个样本,第 2 类有 71 个样本,第 3 类有 48 个样本。
实验方法
聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类是
【原创】
【原创】R 语言案例数据分析报告论文(附代码数据)
有问题到淘宝找“大数据部落”就可以了
PAGE
PAGE 2
未知的,故此,这是一个“无指导的学习” 过程,它倾向于数据的自然划分。其中聚类算法常见的有基于层次方法、基于划分方法、基于密度以及网格等方法。本文中对近年来聚类算法的研究现状与新进展进行归纳总结。一方面对近年来提出的较有代表性的聚类算法,从算法思想。关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析。最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题等。
实验中主要选择了 K 均值聚类算法、FCM 模糊聚类算法并以 UCI Machine Learning Repository 网站下载的 WINE 数据集为基础,然后以WINE 数据集在学习了解 Weka 软件接口方面的基础后作聚类分析,使用最常见的 K 均值(即K-means)聚类算法和 FCM 模糊聚类算法。下面简单描述一下 K 均值聚类的步骤。
K 均值算法首先随机的指定 K 个类中心。然后:
将每个实例分配到距它最近的类中心,得到 K 个类;
计分别计算各类中所有实例的均值,把它们作为各类新的类中心。重复(1)和(2),直到 K 个类中心的位置都固定,类的分配也固定。
在实验过程中通过利用 Weka 软件中提供的 simpleKmeans(也就是 K 均值聚类算法对 WINE 数据集进行聚类分析,更深刻的理解 k 均值算法,并通过对实验结果进行观察分析,找出实验中所存在的问题。然后再在学习了解Weka 软件接口方面的基础上对 Weka 软件进行一定的扩展以加入新的聚类算法来实现基于Weka 平台的聚类分析。
K 均值聚
您可能关注的文档
- Theimportanceofrecycling演讲稿分析和总结.docx
- therebe句型口诀+练习题.docx
- TI84 Plus计算器培训教材.docx
- TLMR12U日常操作说明书.docx
- TMA三均线期指高频交易策略的R实现.docx
- TMK外呼现场流程.docx
- TPU溶解报告记录.docx
- tr069分析和总结分析和总结.docx
- TR800中继改造分析和总结.docx
- Tranlation course2分析和总结分析和总结.docx
- 2022-2023年国开电大《公司概论》末考题(含答案)(a1040).pdf
- 2025年大数据分析师职业能力测试卷:Python编程与数据可视化应用试题.docx
- 2022-2023年国开电大《公司概论》末考题(含答案)(a1040).pdf
- 柔性制造系统的资源配置优化论文.docx
- 剧本杀DM剧情沉浸与心理调节.pptx
- 情感劳动边界可视化训练.pptx
- 2025年中学教师资格考试《综合素质》教育研究方法教育政策与法规应用题(含答案)试卷.docx
- 2025年西班牙语DELED1级阅读训练试卷:学术论文阅读与批判性思维培养技巧解析.docx
- 2025年葡萄牙语等级考试水平测试试卷.docx
- 2022-2023年国开电大《公司概论》末考题(含答案)(a1040).pdf
文档评论(0)