利用KNIME进行数据挖掘的实验手册.pdfVIP

  • 3
  • 0
  • 约8.41千字
  • 约 16页
  • 2024-04-05 发布于上海
  • 举报

利⽤KNIME进⾏数据挖掘的实验⼿册

数据挖掘实验⼿册

本次实践分别⽤两个数据集来进⼀步学习如何在KNIME中对两个数据集进⾏分类,聚类和频繁模式挖掘算法的实践。两个数

据集均来Kaggle⽹站的UCIMachineLearning。

⼀、蘑菇数据集

蘑菇数据集来于MushroomClassification|Kaggle,该数据集总数据量为8124条,涉及特征包括菌盖形状、菌盖表⾯、⽓

味等等个字段,⽬标是对蘑菇是否有进⾏⼆分类,即有、⽆。所有的特征都是离散分类特征,在上可以看到

22Kaggle

各特征的具体含义和属性取值。

本次实践使⽤的软件是KNIMEAnalyticsPlatform,其界⾯如下:

在本次实践过程要涉及两个区域:⼯作区和节点选项板。⼯作区放置操作节点和数据流,节点选项板则提供了不同功能的节

点。⾸先介绍两个基本概念:节点和数据流。进⾏的数据挖掘重点关注通过⼀系列节点运⾏数据的

KNIMEAnalyticsPlatform

过程,我们将这⼀过程称为⼯作流。也可以说KNIMEAnalyticsPlatform是以⼯作流这⼀系列节点代表要对数据执⾏的操作,

⽽节点之间的链接指⽰数据的流动⽅向。通常,将数据以⼀条条记录的形式读⼊,然后通过对数据

KNIMEAnalyticsPlatform

进⾏⼀系列操作,最后将其发送⾄某个地⽅(可以是模型,或某种格式的数据输出)。使⽤处理数

KNIMEAnalyticsPlatform

据的三个步骤:

1.将数据读⼊KNIMEAnalyticsPlatform。

2.通过⼀系列操纵运⾏数据。

3.将数据发送到⽬标位置。

在中,可以通过打开新的⼯作流来⼀次处理多个数据流。会话期间,可以在

KNIMEAnalyticsPlatformKNIMEAnalytics

Platform窗⼝上⾓的流管理器中管理打开的多个数据流。

接下来我们开始对数据集进⾏操作:

第⼀步创建流

在左上⾓菜单栏选择⽂件新建流,创建⼀个新的数据流。

“”“”

然后选择“NewKNIMEWorkflow”。

第⼆步导⼊数据

在节点列表中选择“IO”“ead”“CSVeader”,将其拖⼊⼯作区。这⾥“CSVeader”是指从CSV⽂件中读取数据,正好我

→→

们下载的源数据⽂件为⽂件,⼀般以逗号()为分隔符。

csv,

双击打开“CSVeader”对话框,选中之前下载好的数据⽂件,然后对数据格式进⾏设置。在这⾥要说以下⼏点:

如果⽂件第⼀⾏是字段名,则选中,

1.“HasColumnHeader”KNIME

AnalyticsPlatform会动提取。

2.如果⽂件显⽰乱码,则在“Encoding”选项卡中修改为正确的编码。

⼀些不是以逗号为分隔符的,可以在中选择相

3.CSV“ColumnDelimiter”

应的符号。

对于Mushroom数据集来说,由于其含有列头但是没有⾏头,这⾥需要选中“HasColumnHeader”,同时去掉“Hasow

Header”的勾选。

设置完成后在节点上点击

文档评论(0)

1亿VIP精品文档

相关文档