《数据挖掘技术与应用》实验指导书(排).docx

下载文档 降价啦

37
0
约4.68万字
约 87页
2020-07-11 发布于天津
举报
版权申诉
保障服务

《数据挖掘技术与应用》实验指导书(排).docx

1、本文档共87页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《数据挖掘技术与应用》实验指导书《数据挖掘技术与应用》实验指导书《数据挖掘技术与应用》实验指导书邓克文编重庆大学经济与工商管理学院 2014年7月目录 TOC \o "1-5" \h \z \o "Current Document" 第一章数据挖掘及工具简介 1 1.1数据挖掘的基本概念 1 1.2数据挖掘的基本框架及流程 1 1.3数据挖掘软件工具 1 \o "Current Document" 第二章基础实验篇 2 2.1实验一分类 2 2.2实验二预测 21 2.3实验三聚类 33 2.4实验四关联分析 45 2.5实验五 RFM 模型 51 \o "Current Document" 2.6基于遗传算法的变量选择 66 \o "Current Document" 参考文献 77 \o "Current Document" 附录 78 《数据挖掘技术与应用》实验指导书《数据挖掘技术与应用》实验指导书 PAGE PAGE # 第一章 1.1数据挖掘的基本概念数据挖掘及工具简介 1.2数据挖掘的基本框架及流程 1.3数据挖掘软件工具第二章基础实验篇 2.1实验一分类一、实验目的通过本次实验，学会使 Clememtine软件及R软件进行数据挖掘的分类实验，撑握以下知识点：⑴Logistic分类模型；（2）决策树C5.0分类模型及其Cost矩阵设置的重要作用；（3）贝叶斯网络分类模型；（5）支持向量机模型；⑹ 神经网络模型；（7）运用 R软件进行连续函数离散化数据预处理，并对该数据用上述 3个模型进行挖掘，最后与连续性原始数据的挖掘结果进行对比，并得出相关结论；（8）运用Clememtine软件解决数据预处理中的缺失值填充问题。二、实验安排 ?学时：本实验安排8个学时，主要用于完成实验及实验报告。 ?时间：由实验室统一安排地点：由实验室统一安排三、实验工具 PC电脑1台，Windows 7系统，Clememtine 12.0数据挖掘软件，R软件，以及上市公司ST数据集和Clememtine自带的telco.sav数据集。四、知识准备五、实验背景六、实验过程实验1:基础模型按顺序拖动并设置以下节点 EXULi"HTableST\L(1)设置数据来源(source中的excel来源)。点击此处选择数据源。 EXULi" H Table ST \L (1)设置数据来源(source中的excel来源)。点击此处选择数据源。 320个上市公司的财Table节点运行后，我们可以看到数据源的具体内容，其包含 320个上市公司的财务指标以及在该财务指标下第二年是否被 ST的数据，ST= 1表示次年被ST, ST= 0则表示未被ST,其中X1至X18表示净利润率、资产收益率等18边续性的财务变量，最后一个变量为Flag类型ST变量 (3)将320.xls指向type节点，编辑type,只有最后一项为输出且类型为flag，其他项为输入，类型为连续型变量(ran ge)。 FarmatAnrtotstioneField Type Values Mi-ssina Check Diiettior Farmat Anrtotstione 夕 Bangs I W I W. ■ FT』 |i.a.3.0) Nons 、In X13 R^nqe I1.U.3.0] None 、n ?旳4 护 Range H.a.2.0) None \ In 曲X15 冷 R^nqe |1 Q30] None 、n 畚 Range H 3.4 0) None \ In 您或7 R^nqe |1 Q3Q] Mode \ n rio.3c) in M>3T .□? Flaa I.QfO.Q None ⑥Di current f elds Vie^ unused field settincs ResetOK I Car.c&l Reset （4）将type指向partit on,设置训练集与测试集比例，对话框上部的 gen erate处可分出训练集与测试集，下部的gen erate实现随机抽样分区，在大样本的情况下，这将使得每位同学的实验得到的结果会有所不同。然后将 partition指向testing和training。（5）选择逻辑模型和决策树模型，并将 partition分别指向这两个模型 1）编辑决策树模型的model，可选择专家模型与普通模型。 Mooe nams: ? Auto Custcm k use pa rationed data Output3 D&dsiontree 尺Ue □ Group aymlsclio 口 Useboof