利用KNIME进行数据挖掘的实验手册.pdfVIP

下载本文档

3
0
约8.41千字
约 16页
2024-04-05 发布于上海
举报

利用KNIME进行数据挖掘的实验手册.pdf

利⽤KNIME进⾏数据挖掘的实验⼿册

数据挖掘实验⼿册

本次实践分别⽤两个数据集来进⼀步学习如何在KNIME中对两个数据集进⾏分类，聚类和频繁模式挖掘算法的实践。两个数

据集均来Kaggle⽹站的UCIMachineLearning。

⼀、蘑菇数据集

蘑菇数据集来于MushroomClassification|Kaggle，该数据集总数据量为8124条，涉及特征包括菌盖形状、菌盖表⾯、⽓

味等等个字段，⽬标是对蘑菇是否有进⾏⼆分类，即有、⽆。所有的特征都是离散分类特征，在上可以看到

22Kaggle

各特征的具体含义和属性取值。

本次实践使⽤的软件是KNIMEAnalyticsPlatform，其界⾯如下：

在本次实践过程要涉及两个区域：⼯作区和节点选项板。⼯作区放置操作节点和数据流，节点选项板则提供了不同功能的节

点。⾸先介绍两个基本概念：节点和数据流。进⾏的数据挖掘重点关注通过⼀系列节点运⾏数据的

KNIMEAnalyticsPlatform

过程，我们将这⼀过程称为⼯作流。也可以说KNIMEAnalyticsPlatform是以⼯作流这⼀系列节点代表要对数据执⾏的操作，

⽽节点之间的链接指⽰数据的流动⽅向。通常，将数据以⼀条条记录的形式读⼊，然后通过对数据

KNIMEAnalyticsPlatform

进⾏⼀系列操作，最后将其发送⾄某个地⽅（可以是模型，或某种格式的数据输出）。使⽤处理数

KNIMEAnalyticsPlatform

据的三个步骤：

1.将数据读⼊KNIMEAnalyticsPlatform。

2.通过⼀系列操纵运⾏数据。

3.将数据发送到⽬标位置。

在中，可以通过打开新的⼯作流来⼀次处理多个数据流。会话期间，可以在

KNIMEAnalyticsPlatformKNIMEAnalytics

Platform窗⼝上⾓的流管理器中管理打开的多个数据流。

接下来我们开始对数据集进⾏操作：

第⼀步创建流

在左上⾓菜单栏选择⽂件新建流，创建⼀个新的数据流。

“”“”

→

然后选择“NewKNIMEWorkflow”。

第⼆步导⼊数据

在节点列表中选择“IO”“ead”“CSVeader”，将其拖⼊⼯作区。这⾥“CSVeader”是指从CSV⽂件中读取数据，正好我

→→

们下载的源数据⽂件为⽂件，⼀般以逗号（）为分隔符。

csv,

双击打开“CSVeader”对话框，选中之前下载好的数据⽂件，然后对数据格式进⾏设置。在这⾥要说以下⼏点：

如果⽂件第⼀⾏是字段名，则选中，

1.“HasColumnHeader”KNIME

AnalyticsPlatform会动提取。

2.如果⽂件显⽰乱码，则在“Encoding”选项卡中修改为正确的编码。

⼀些不是以逗号为分隔符的，可以在中选择相

3.CSV“ColumnDelimiter”

应的符号。

对于Mushroom数据集来说，由于其含有列头但是没有⾏头，这⾥需要选中“HasColumnHeader”，同时去掉“Hasow

Header”的勾选。

设置完成后在节点上点击

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

利用KNIME进行数据挖掘的实验手册.pdfVIP