- 1、本文档共87页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《数据挖掘技术与应用》实验指导书
《数据挖掘技术与应用》实验指导书
《数据挖掘技术与应用》
实验指导书
邓克文编
重庆大学经济与工商管理学院
2014年7月
目 录
TOC \o "1-5" \h \z \o "Current Document" 第一章数据挖掘及工具简介 1
1.1数据挖掘的基本概念 1
1.2数据挖掘的基本框架及流程 1
1.3数据挖掘软件工具 1
\o "Current Document" 第二章基础实验篇 2
2.1实验一分类 2
2.2实验二预测 21
2.3实验三聚类 33
2.4实验四关联分析 45
2.5实验五 RFM 模型 51
\o "Current Document" 2.6基于遗传算法的变量选择 66
\o "Current Document" 参考文献 77
\o "Current Document" 附 录 78
《数据挖掘技术与应用》实验指导书
《数据挖掘技术与应用》实验指导书
PAGE
PAGE #
第一章
1.1数据挖掘的基本概念
数据挖掘及工具简介
1.2数据挖掘的基本框架及流程
1.3数据挖掘软件工具
第二章基础实验篇
2.1实验一分类
一、 实验目的
通过本次实验,学会使 Clememtine软件及R软件进行数据挖掘的分类实验,撑握 以下知识点:⑴Logistic分类模型;(2)决策树C5.0分类模型及其Cost矩阵设置的重 要作用;(3)贝叶斯网络分类模型;(5)支持向量机模型;⑹ 神经网络模型;(7)运用 R软件进行连续函数离散化数据预处理,并对该数据用上述 3个模型进行挖掘,最后与
连续性原始数据的挖掘结果进行对比,并得出相关结论;(8)运用Clememtine软件解决 数据预处理中的缺失值填充问题。
二、 实验安排
?学时:本实验安排8个学时,主要用于完成实验及实验报告。
?时间:由实验室统一安排
地点:由实验室统一安排
三、 实验工具
PC电脑1台,Windows 7系统,Clememtine 12.0数据挖掘软件,R软件,以 及上市公司ST数据集和Clememtine自带的telco.sav数据集。
四、 知识准备
五、 实验背景
六、 实验过程
实验1:基础模型
按顺序拖动并设置以下节点
EXULi"HTableST\L(1)设置数据来源(source中的excel来源)。点击此 处选择 数据源。
EXULi"
H
Table
ST
\L
(1)设置数据来源(source中的excel来源)。
点击此 处选择 数据源。
320个上市公司的财Table节点运行后,我们可以看到数据源的具体内容,其包含
320个上市公司的财
务指标以及在该财务指标下第二年是否被 ST的数据,ST= 1表示次年被ST, ST= 0则
表示未被ST,其中X1至X18表示净利润率、资产收益率等18边续性的财务变量,最
后一个变量为Flag类型ST变量
(3)将320.xls指向type节点,编辑type,只有最后一项为输出且类型为flag,其 他项为输入,类型为连续型变量(ran ge)。
FarmatAnrtotstioneField Type Values Mi-ssina Check Diiettior
Farmat
Anrtotstione
夕 Bangs
I W I W. ■ FT』
|i.a.3.0)
Nons
、In
X13
R^nqe
I1.U.3.0]
None
、n
?旳4
护 Range
H.a.2.0)
None
\ In
曲X15
冷 R^nqe
|1 Q30]
None
、n
畚 Range
H 3.4 0)
None
\ In
您或7
R^nqe
|1 Q3Q]
Mode
\ n
rio.3c)
in
M>3T
.□? Flaa
I.QfO.Q
None
⑥Di
current f elds Vie^ unused field settincs
ResetOK I Car.c&l
Reset
(4)将type指向partit on,设置训练集与测试集比例,对话框上部的 gen erate处可
分出训练集与测试集,下部的gen erate实现随机抽样分区,在大样本的情况下,这将使 得每位同学的实验得到的结果会有所不同。然后将 partition指向testing和training。
(5)选择逻辑模型和决策树模型,并将 partition分别指向这两个模型
1)编辑决策树模型的model,可选择专家模型与普通模型。
Mooe nams: ? Auto Custcm
k use pa rationed data
Output3 D&dsiontree 尺Ue
□ Group aymlsclio
口 Useboof
文档评论(0)