《数据挖掘技术与应用》实验指导书(排)解析.doc

下载文档 降价啦

20
0
约9千字
约 81页
2016-04-30 发布于湖北
举报
版权申诉
保障服务

《数据挖掘技术与应用》实验指导书(排)解析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《数据挖掘技术与应用》实验指导书重庆大学经济与工商管理学院 2014年7月目录第一章数据挖掘及工具简介 1 1.1 数据挖掘的基本概念 1 1.2 数据挖掘的基本框架及流程 1 1.3 数据挖掘软件工具 1 第二章基础实验篇 2 2.1 实验一分类 2 2.2 实验二预测 18 2.3 实验三聚类 29 2.4实验四关联分析 40 2.5实验五 RFM模型 46 2.6基于遗传算法的变量选择 60 参考文献 71 附录 72 数据挖掘及工具简介数据挖掘的基本概念数据挖掘的基本框架及流程 1.3 数据挖掘软件工具基础实验篇 2.1 实验一分类一、实验目的通过本次实验，学会使：(1) 二、实验安排 1．学时：本实验安排个学时，主要用于完成实验及实验报告。 2．时间：由实验室统一安排 3．地点：由实验室统一安排三、实验工具四、知识准备五、实验背景六、实验过程实验1：基础模型 1.按顺序拖动并设置以下节点。（1）设置数据来源（source中的excel来源）。（2）将320.xls指向table，运行table。结果如下。（3）将320.xls指向type，编辑type，只有最后一项为输出且类型为flag，其他项为输入，类型为连续型变量）。（4）将type指向partiton，设置训练集与测试集比例，对话框上部的generate处可分出训练集与测试集，下部的generate。将partition指向testing和training。（5）选择逻辑模型和决策树模型，并将partition分别指向这两个模型。 1）编辑决策树模型的model，可选择专家模型与普通模型。 2）编辑决策树模型的costs，可确定误判的代价。（6）运行逻辑模型，将新生成的数据拖到training与testing后并由它们指向数据。设置不同的决策树模型，生成不同的数据，由逻辑模型数据指向不同的决策树模型数据。在每条数据流末端增加analysis，并指向它们。（7）不同决策树设置下的数据及分析。 1）决策树设置：1误判为0代价为10,0误判为1代价为1。非专家模型。 2）决策树设置：1误判为0代价为100,0误判为1代价为1。非专家模型。 3）决策树设置：1误判为0代价为10,0误判为1代价为1。专家模型。实验2：连续型变量与离散型变量的模型建立 1. 打开320.xls，另存为320.csv 2.运用R软件编程，对数据进行离散化处理，删除无效属性（属性为单一值），并保存。上述结果表明，离散化后X10只离散化为一个单一区间，这表明其与决策变量ST没有相关性，故在后续的分析中将其删除。 3.用离散型与连续型两个不同的数据来源建立两个数据流，建立过程同上。 4.离散型数据类型设置为set，连续型数据类型设置为range。 5.设置贝叶斯模型，在Fields中，目标设置为ST，Inputs只保留x1到x18；分析比较不同数据类型的贝叶斯模型分析结果，离散型数据拥有较高准确率。 6. Clememtine超节点的应用。所谓超节点，就是将数据预处理、模型建模等相同功能的多个数据流节点合并为一个功能单一的超节点，其目的是简化数据流，使得模型结构清晰，易于理解。其方法是：选择多个数据流中节点，单击右键选择create supernode，可将其整合。 7.右键单击pre-date，选择zoom in，可查看详细节点。实验3：数据的预处理（筛选与填充）与建模 1.选择数据来源 2.编辑类型，自动读取数据类型 3.添加churm模型，将type指向churm并运行，自动选择了27个重要属性，生成数据；将数据添加到模型区并将type指向数据。 4.添加filter处理数据，讲非重要属性过滤掉，运行该处理，操作含有缺失值的那个属性，在missing input处选定为specify。 5.在弹出的对话框中设置填充的原则，当值为空或者为空格时自动填充，算法为CRT，单击ok。 6．单击第4点图generate中的missing value supernode，生成missing value imputation，后续的添加模型生成数据、进行分析的操作同上。 7.分析结果如下。七、实验结果及分析 1.模型务必按顺序建立，并依次连接依次设置运行。一般顺序为：数据导入，数据筛选并生成数据包，确定模型并生成数据包，分析模型准确率等。 2.预处理是数据挖掘中最重要的部分。在数据进入模型之前，我们可以使用R进行数据预处理，将数据离散化，也可以在clementine中筛选出重要属性，对缺失值进行合理填充，以此得到可信度较高的模型。 3.模型的设置对结果的得出也至关重要，要防止过度拟合，也