《数据挖掘技术与应用》实验指导书(排).docx

《数据挖掘技术与应用》实验指导书(排).docx

  1. 1、本文档共87页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《数据挖掘技术与应用》实验指导书 《数据挖掘技术与应用》实验指导书 《数据挖掘技术与应用》 实验指导书 邓克文编 重庆大学经济与工商管理学院 2014年7月 目 录 TOC \o "1-5" \h \z \o "Current Document" 第一章数据挖掘及工具简介 1 1.1数据挖掘的基本概念 1 1.2数据挖掘的基本框架及流程 1 1.3数据挖掘软件工具 1 \o "Current Document" 第二章基础实验篇 2 2.1实验一分类 2 2.2实验二预测 21 2.3实验三聚类 33 2.4实验四关联分析 45 2.5实验五 RFM 模型 51 \o "Current Document" 2.6基于遗传算法的变量选择 66 \o "Current Document" 参考文献 77 \o "Current Document" 附 录 78 《数据挖掘技术与应用》实验指导书 《数据挖掘技术与应用》实验指导书 PAGE PAGE # 第一章 1.1数据挖掘的基本概念 数据挖掘及工具简介 1.2数据挖掘的基本框架及流程 1.3数据挖掘软件工具 第二章基础实验篇 2.1实验一分类 一、 实验目的 通过本次实验,学会使 Clememtine软件及R软件进行数据挖掘的分类实验,撑握 以下知识点:⑴Logistic分类模型;(2)决策树C5.0分类模型及其Cost矩阵设置的重 要作用;(3)贝叶斯网络分类模型;(5)支持向量机模型;⑹ 神经网络模型;(7)运用 R软件进行连续函数离散化数据预处理,并对该数据用上述 3个模型进行挖掘,最后与 连续性原始数据的挖掘结果进行对比,并得出相关结论;(8)运用Clememtine软件解决 数据预处理中的缺失值填充问题。 二、 实验安排 ?学时:本实验安排8个学时,主要用于完成实验及实验报告。 ?时间:由实验室统一安排 地点:由实验室统一安排 三、 实验工具 PC电脑1台,Windows 7系统,Clememtine 12.0数据挖掘软件,R软件,以 及上市公司ST数据集和Clememtine自带的telco.sav数据集。 四、 知识准备 五、 实验背景 六、 实验过程 实验1:基础模型 按顺序拖动并设置以下节点 EXULi"HTableST\L(1)设置数据来源(source中的excel来源)。点击此 处选择 数据源。 EXULi" H Table ST \L (1)设置数据来源(source中的excel来源)。 点击此 处选择 数据源。 320个上市公司的财Table节点运行后,我们可以看到数据源的具体内容,其包含 320个上市公司的财 务指标以及在该财务指标下第二年是否被 ST的数据,ST= 1表示次年被ST, ST= 0则 表示未被ST,其中X1至X18表示净利润率、资产收益率等18边续性的财务变量,最 后一个变量为Flag类型ST变量 (3)将320.xls指向type节点,编辑type,只有最后一项为输出且类型为flag,其 他项为输入,类型为连续型变量(ran ge)。 FarmatAnrtotstioneField Type Values Mi-ssina Check Diiettior Farmat Anrtotstione 夕 Bangs I W I W. ■ FT』 |i.a.3.0) Nons 、In X13 R^nqe I1.U.3.0] None 、n ?旳4 护 Range H.a.2.0) None \ In 曲X15 冷 R^nqe |1 Q30] None 、n 畚 Range H 3.4 0) None \ In 您或7 R^nqe |1 Q3Q] Mode \ n rio.3c) in M>3T .□? Flaa I.QfO.Q None ⑥Di current f elds Vie^ unused field settincs ResetOK I Car.c&l Reset (4)将type指向partit on,设置训练集与测试集比例,对话框上部的 gen erate处可 分出训练集与测试集,下部的gen erate实现随机抽样分区,在大样本的情况下,这将使 得每位同学的实验得到的结果会有所不同。然后将 partition指向testing和training。 (5)选择逻辑模型和决策树模型,并将 partition分别指向这两个模型 1)编辑决策树模型的model,可选择专家模型与普通模型。 Mooe nams: ? Auto Custcm k use pa rationed data Output3 D&dsiontree 尺Ue □ Group aymlsclio 口 Useboof

文档评论(0)

yanchuh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档