- 3
- 0
- 约8.41千字
- 约 16页
- 2024-04-05 发布于上海
- 举报
利⽤KNIME进⾏数据挖掘的实验⼿册
数据挖掘实验⼿册
本次实践分别⽤两个数据集来进⼀步学习如何在KNIME中对两个数据集进⾏分类,聚类和频繁模式挖掘算法的实践。两个数
据集均来Kaggle⽹站的UCIMachineLearning。
⼀、蘑菇数据集
蘑菇数据集来于MushroomClassification|Kaggle,该数据集总数据量为8124条,涉及特征包括菌盖形状、菌盖表⾯、⽓
味等等个字段,⽬标是对蘑菇是否有进⾏⼆分类,即有、⽆。所有的特征都是离散分类特征,在上可以看到
22Kaggle
各特征的具体含义和属性取值。
本次实践使⽤的软件是KNIMEAnalyticsPlatform,其界⾯如下:
在本次实践过程要涉及两个区域:⼯作区和节点选项板。⼯作区放置操作节点和数据流,节点选项板则提供了不同功能的节
点。⾸先介绍两个基本概念:节点和数据流。进⾏的数据挖掘重点关注通过⼀系列节点运⾏数据的
KNIMEAnalyticsPlatform
过程,我们将这⼀过程称为⼯作流。也可以说KNIMEAnalyticsPlatform是以⼯作流这⼀系列节点代表要对数据执⾏的操作,
⽽节点之间的链接指⽰数据的流动⽅向。通常,将数据以⼀条条记录的形式读⼊,然后通过对数据
KNIMEAnalyticsPlatform
进⾏⼀系列操作,最后将其发送⾄某个地⽅(可以是模型,或某种格式的数据输出)。使⽤处理数
KNIMEAnalyticsPlatform
据的三个步骤:
1.将数据读⼊KNIMEAnalyticsPlatform。
2.通过⼀系列操纵运⾏数据。
3.将数据发送到⽬标位置。
在中,可以通过打开新的⼯作流来⼀次处理多个数据流。会话期间,可以在
KNIMEAnalyticsPlatformKNIMEAnalytics
Platform窗⼝上⾓的流管理器中管理打开的多个数据流。
接下来我们开始对数据集进⾏操作:
第⼀步创建流
在左上⾓菜单栏选择⽂件新建流,创建⼀个新的数据流。
“”“”
→
然后选择“NewKNIMEWorkflow”。
第⼆步导⼊数据
在节点列表中选择“IO”“ead”“CSVeader”,将其拖⼊⼯作区。这⾥“CSVeader”是指从CSV⽂件中读取数据,正好我
→→
们下载的源数据⽂件为⽂件,⼀般以逗号()为分隔符。
csv,
双击打开“CSVeader”对话框,选中之前下载好的数据⽂件,然后对数据格式进⾏设置。在这⾥要说以下⼏点:
如果⽂件第⼀⾏是字段名,则选中,
1.“HasColumnHeader”KNIME
AnalyticsPlatform会动提取。
2.如果⽂件显⽰乱码,则在“Encoding”选项卡中修改为正确的编码。
⼀些不是以逗号为分隔符的,可以在中选择相
3.CSV“ColumnDelimiter”
应的符号。
对于Mushroom数据集来说,由于其含有列头但是没有⾏头,这⾥需要选中“HasColumnHeader”,同时去掉“Hasow
Header”的勾选。
设置完成后在节点上点击
您可能关注的文档
- 数学学科周最强大脑之巅峰对决比赛方案.pdf
- 2016年全国大学生英语竞赛初赛答案(C类).pdf
- 动点问题初二压轴题解题技巧.pdf
- 中国机械工业标准汇编 阀门卷(第4版).pdf
- 1129士术工程力学(本)-国家开放大学2021年1月期末考试真题及答案-土木工程专业.pdf
- 个人职业生涯规划书【五篇】.pdf
- 《爱的考核》阅读训练(含答案).pdf
- 《读不完的大书》示范课教学设计【部编人教版三年级语文上册】(第2课时).pdf
- 1.大学生创业缺乏经验怎么办.pdf
- 北京延庆世园公园简介.pdf
- 部编版人教版一年级语文下册《识字:古对今》赛教课件.pptx
- 新编人教部编版二年级下册语文《我是一只小虫子》名师教学课件.pptx
- 最新人教部编版九年级语文上册《精神的三间小屋》精品课件.ppt
- 全优指导高中数学人教A版选修2-1课件:3.2.1利用向量证明空间中的平行关系.ppt
- 最新人教部编版小学语文一年级下册《动物儿歌》教学设计.docx
- 最新人教部编版四年级语文上册《风筝》精品课件.ppt
- 北师大版数学六年级下册《数的运算》课件.ppt
- 部编版人教版初一七年级语文下册《老王》名师课件.ppt
- 部编版人教版初一七年级语文下册《将军百战死-壮士十年归——“互文”修辞手法》名师课件.pptx
- 部编版三年级语文下册《童年的水墨画》教学课件.pptx
原创力文档

文档评论(0)