- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SPSSClementine8.1(英文版)数据挖掘平台入门操作指南
一、基本操作
工作区简介1)可视化界面操作:
基本符号
1)收藏夹用于存放常用的节点。
2)数据源用来将数据读进Clementine系统的节点。
图例
名称
说明
(B
数据库(Database)
用于通过ODBC导入数据
变量文件
(Var.File)
用于无限制字段的ASCH数据
(1)
固定文件(FixedFile)
用于固定字段的ASCH数据
SPSS文件(SPSS
File)
用于导入SPSS文件
(3
SAS文件(SASFile)
用于导入SAS格式的文件
用户导入(UserInput)
用于替代已存在的来源结点
3)记录选项用来在数据记录上进行操作的节点。
fjFavoritesF*Sources?RecordOpsFieldOps
@l?0佥@g@@
Select:SampleBalanceAggregateSortMergeAppendDistinct
图例
名称
说明
选择(Select)
根据具体条件从数据流中选择或排除某一记录
③
抽样(Sample)
限制通过的记录数或排除一定比例的记录
均衡(Balance)
修正数据集中的不均匀性,以便能够符合特定的测试原则
聚合(Aggregate)
将一系列输入记录变换成总括性的、聚合的输出记录
佥
排序(Sort)
根据一个或多个域值对记录进行升序或降
序排列
合并(Merge)
接受多重输入记录,并生成包含部分或全部输入字段的单一输出记录
?
附加(Append)
用于合并有相似结构而数据不同的数据集
三
区分(Distinct)
清除重复性记录
4)字段选项用来在数据字段上进行操作的节点。
图例
名称
说明
类型(Type)
指定字段的一系列重要属性
过滤(Filter)
/从通过的记录中过滤或剔除字段
/重命名字段
/把字段从一个来源节点映射到另一个字段
导出(Derive)
用来从数据流中导出新字段
?
填充(Filler)
用来替换域值以及改变存储
再分类
(Reclassify)
把一个离散值集转换到另外一个中
分块(Binning)
在一个或多个现有的数字范畴字段值的基础上自动建立一个新的字段集
设置为标记(Setto
Flag)
根据一个或多个数据集字段定义的符号型值,来导出多重标记字段
历史(History)
用于处理进程序列数据(如时间序列数据)
字段记录(FieldRecorder)
定义自然序列,用于展示其后的字段
图在建模之前和之后用来可视化数据的节点。
图例
名称
说明
点图(Plot)
显示数值型字段之间的关系
A
分布图(条形图)(Distribution)
显示一个数据集中符号型(非数值型)变量的发生情况
A
柱形图(直方图)(Histogram)
显示数值型字段变量值
堆积图
(Collection)
显示一个数值型字段变量值与另一个字段变量值相对比结果的分布
A
多点图(折线图)(Multiplot)
显示一个单独的X字段对应多个Y字段的情况
网络图(Web)
显示两个或两个以上符号型(非数值型)字段之间关系的强弱程度
区
评估图
(Evaluation)
提供一种轻松评估和比较预想的模型,并从中选择最有利于应用的模型的方法
6)建模在Clementine系统中可用的代表有效算法的节点。
图例
名称
说明
翁
神经网络(Neural
Net)
用于创建并训练神经网络
C5.0(C5.0决策树)
使用C5.0算法生成决策树或者规则集
密
CRTree(分类回归树)
基于树的分类预测方法
Kohonen(自组织聚类)
用于创建和训练Kohonen网络、knet或者自组织映像的特殊神经网络。
K-Means(K均值聚类)
通过定义一组起始聚类中心进行分群的聚类分析方法,初始类中心来自数据
TwoStep(两步聚类)
分两步进行聚类分析的方法
Apriori
发现数据中的关联规则
GRI(广义规则归纳)
发现数据间的关联规则
Sequence(序列检测)
反映有序数据或时序数据中存在的模式
念
PCA/Factor(主成份/因子分析)
提供强大的数据简化技术以降低数据的复杂性
翎
Regression(回归分析)
用于生成线性回归模型
Logistic(逻辑回归)
通过建立一组方程,把输入域值与输出字段每一类的概率联系起来
7)输出用来给出Clementine数据的各种输出、图表和模型结果。
n
Table
J
Fa^orlfes?Sources厦回[ffl回园图囹囹画园「?RegardOpsFieldOps■Graphs
Fa^orlfes?Sources
厦回[ffl回园图
囹囹画园
图例
名称
说明
■
表格(Table)
允许用户根据数
文档评论(0)