- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《数据挖掘技术与应用》
实 验 指 导 书
重庆大学经济与工商管理学院
2014年7月
目 录
第一章 数据挖掘及工具简介 1
1.1 数据挖掘的基本概念 1
1.2 数据挖掘的基本框架及流程 1
1.3 数据挖掘软件工具 1
第二章 基础实验篇 2
2.1 实验一 分 类 2
2.2 实验二 预 测 18
2.3 实验三 聚 类 29
2.4实验四 关联分析 40
2.5实验五 RFM模型 46
2.6基于遗传算法的变量选择 60
参考文献 71
附 录 72
数据挖掘及工具简介
数据挖掘的基本概念
数据挖掘的基本框架及流程
1.3 数据挖掘软件工具
基础实验篇
2.1 实验一 分 类
一、实验目的
通过本次实验,学会使:(1)
二、实验安排
1.学时: 本实验安排个学时,主要用于完成实验及实验报告。
2.时间: 由实验室统一安排
3.地点: 由实验室统一安排
三、实验工具
四、知识准备五、实验背景
六、实验过程
实验1:基础模型
1.按顺序拖动并设置以下节点。
(1)设置数据来源(source中的excel来源)。
(2)将320.xls指向table,运行table。结果如下。
(3)将320.xls指向type,编辑type,只有最后一项为输出且类型为flag,其他项为输入,类型为连续型变量)。
(4)将type指向partiton,设置训练集与测试集比例,对话框上部的generate处可分出训练集与测试集,下部的generate。将partition指向testing和training。
(5)选择逻辑模型和决策树模型,并将partition分别指向这两个模型。
1)编辑决策树模型的model,可选择专家模型与普通模型。
2)编辑决策树模型的costs,可确定误判的代价。
(6)运行逻辑模型,将新生成的数据拖到training与testing后并由它们指向数据。
设置不同的决策树模型,生成不同的数据,由逻辑模型数据指向不同的决策树模型数据。在每条数据流末端增加analysis,并指向它们。
(7)不同决策树设置下的数据及分析。
1)决策树设置:1误判为0代价为10,0误判为1代价为1。非专家模型。
2)决策树设置:1误判为0代价为100,0误判为1代价为1。非专家模型。
3)决策树设置:1误判为0代价为10,0误判为1代价为1。专家模型。
实验2:连续型变量与离散型变量的模型建立
1. 打开320.xls,另存为320.csv
2.运用R软件编程,对数据进行离散化处理,删除无效属性(属性为单一值),并保存。
上述结果表明,离散化后X10只离散化为一个单一区间,这表明其与决策变量ST没有相关性,故在后续的分析中将其删除。
3.用离散型与连续型两个不同的数据来源建立两个数据流,建立过程同上。
4.离散型数据类型设置为set,连续型数据类型设置为range。
5.设置贝叶斯模型,在Fields中,目标设置为ST,Inputs只保留x1到x18;
分析比较不同数据类型的贝叶斯模型分析结果,离散型数据拥有较高准确率。
6. Clememtine超节点的应用。所谓超节点,就是将数据预处理、模型建模等相同功能的多个数据流节点合并为一个功能单一的超节点,其目的是简化数据流,使得模型结构清晰,易于理解。其方法是:选择多个数据流中节点,单击右键选择create supernode,可将其整合。
7.右键单击pre-date,选择zoom in,可查看详细节点。
实验3:数据的预处理(筛选与填充)与建模
1.选择数据来源
2.编辑类型,自动读取数据类型
3.添加churm模型,将type指向churm并运行,自动选择了27个重要属性,生成数据;将数据添加到模型区并将type指向数据。
4.添加filter处理数据,讲非重要属性过滤掉,运行该处理,操作含有缺失值的那个属性,在missing input处选定为specify。
5.在弹出的对话框中设置填充的原则,当值为空或者为空格时自动填充,算法为CRT,单击ok。
6.单击第4点图generate中的missing value supernode,生成missing value imputation,后续的添加模型生成数据、进行分析的操作同上。
7.分析结果如下。
七、实验结果及分析
1.模型务必按顺序建立,并依次连接依次设置运行。一般顺序为:数据导入,数据筛选并生成数据包,确定模型并生成数据包,分析模型准确率等。
2.预处理是数据挖掘中最重要的部分。在数据进入模型之前,我们可以使用R进行数据预处理,将数据离散化,也可以在clementine中筛选出重要属性,对缺失值进行合理填充,以此得到可信度较高的模型。
3.模型的设置对结果的得出也至关重要,要防止过度拟合,也
您可能关注的文档
- 《基金科二》真题解析.doc
- 《急救护理学》复习题解析.doc
- 《集装箱运输与货运代理》教学大纲解析.doc
- 《几种常见有机物--乙醇》教学设计解析.doc
- 《计量经济学》习题集解析.doc
- 《计算机操作系统》复习提纲解析.doc
- 《计算机辅助设计》复习题及答案解析.doc
- 《计算机英语(第4版)》课后练习参考答案解析.doc
- 《绩效管理与业务能力提升》八套作业解析.doc
- 《加盟连锁店规章制度》解析.doc
- 【全程复习方略】2014年高考化学课时提升作业(十)第四章第一节无机非金属材料的主角——硅解析.doc
- 《数学软件》实验-数值微积分与方程数值求解解析.doc
- 【全程复习方略】2014年高考化学课时提升作业(十二)第四章第三节硫及其重要化合物解析.doc
- 《数字测图》实习解析.doc
- 【全程复习方略】2014年高考化学课时提升作业(四十)第十四章第四节化学实验方案的设计与评价解析.doc
- 《水电站》试题库完整版解析.doc
- 【全程复习方略】2014年人教A版数学文(广东用)课时作业:9.2流程图与结构图]解析.doc
- 《水浒传》复习题解析.doc
- 【全程复习方略】2014年人教A版数学文(广东用)课时作业:9.2流程图与结构图解析.doc
- 《水利工程经济》课程设计解析.doc
最近下载
- 幼升小简历模板.doc VIP
- 精神科病历书写规范PPT课件.pptx
- 2023-2024学年北京市海淀区九年级上学期期中考试物理试卷+答案解析.pdf VIP
- 2025年贵州事业单位招聘考试(综合基础知识/公共基础知识)历年参考题库含答案详解(5卷).docx VIP
- 2025年《FPGA技术应用》课程标准.docx VIP
- 学堂在线 科研伦理与学术规范 期末考试答案.docx VIP
- 第23课人类社会面临的机遇与挑战【中职专用】《世界历史》(高教版2023基础模块).pptx VIP
- 口腔粘液腺囊肿的护理ppt.pptx
- 学堂在线 研究生生涯发展与规划 章节测试答案.docx VIP
- 美术教学课题研究报告.docx VIP
原创力文档


文档评论(0)