- 1、本文档共82页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《数据挖掘技术与应用》实验指导书(排).doc
《数据挖掘技术与应用》
实 验 指 导 书
重庆大学经济与工商管理学院
2014年7月
目 录
第一章 数据挖掘及工具简介 1
1.1 数据挖掘的基本概念 1
1.2 数据挖掘的基本框架及流程 1
1.3 数据挖掘软件工具 1
第二章 基础实验篇 2
2.1 实验一 分 类 2
2.2 实验二 预 测 18
2.3 实验三 聚 类 29
2.4实验四 关联分析 40
2.5实验五 RFM模型 46
2.6基于遗传算法的变量选择 60
参考文献 71
附 录 72
数据挖掘及工具简介
数据挖掘的基本概念
数据挖掘的基本框架及流程
1.3 数据挖掘软件工具
基础实验篇
2.1 实验一 分 类
一、实验目的
通过本次实验,学会使:(1)
二、实验安排
1.学时: 本实验安排个学时,主要用于完成实验及实验报告。
2.时间: 由实验室统一安排
3.地点: 由实验室统一安排
三、实验工具
四、知识准备五、实验背景
六、实验过程
实验1:基础模型
1.按顺序拖动并设置以下节点。
(1)设置数据来源(source中的excel来源)。
(2)将320.xls指向table,运行table。结果如下。
(3)将320.xls指向type,编辑type,只有最后一项为输出且类型为flag,其他项为输入,类型为连续型变量)。
(4)将type指向partiton,设置训练集与测试集比例,对话框上部的generate处可分出训练集与测试集,下部的generate。将partition指向testing和training。
(5)选择逻辑模型和决策树模型,并将partition分别指向这两个模型。
1)编辑决策树模型的model,可选择专家模型与普通模型。
2)编辑决策树模型的costs,可确定误判的代价。
(6)运行逻辑模型,将新生成的数据拖到training与testing后并由它们指向数据。
设置不同的决策树模型,生成不同的数据,由逻辑模型数据指向不同的决策树模型数据。在每条数据流末端增加analysis,并指向它们。
(7)不同决策树设置下的数据及分析。
1)决策树设置:1误判为0代价为10,0误判为1代价为1。非专家模型。
2)决策树设置:1误判为0代价为100,0误判为1代价为1。非专家模型。
3)决策树设置:1误判为0代价为10,0误判为1代价为1。专家模型。
实验2:连续型变量与离散型变量的模型建立
1. 打开320.xls,另存为320.csv
2.运用R软件编程,对数据进行离散化处理,删除无效属性(属性为单一值),并保存。
上述结果表明,离散化后X10只离散化为一个单一区间,这表明其与决策变量ST没有相关性,故在后续的分析中将其删除。
3.用离散型与连续型两个不同的数据来源建立两个数据流,建立过程同上。
4.离散型数据类型设置为set,连续型数据类型设置为range。
5.设置贝叶斯模型,在Fields中,目标设置为ST,Inputs只保留x1到x18;
分析比较不同数据类型的贝叶斯模型分析结果,离散型数据拥有较高准确率。
6. Clememtine超节点的应用。所谓超节点,就是将数据预处理、模型建模等相同功能的多个数据流节点合并为一个功能单一的超节点,其目的是简化数据流,使得模型结构清晰,易于理解。其方法是:选择多个数据流中节点,单击右键选择create supernode,可将其整合。
7.右键单击pre-date,选择zoom in,可查看详细节点。
实验3:数据的预处理(筛选与填充)与建模
1.选择数据来源
2.编辑类型,自动读取数据类型
3.添加churm模型,将type指向churm并运行,自动选择了27个重要属性,生成数据;将数据添加到模型区并将type指向数据。
4.添加filter处理数据,讲非重要属性过滤掉,运行该处理,操作含有缺失值的那个属性,在missing input处选定为specify。
5.在弹出的对话框中设置填充的原则,当值为空或者为空格时自动填充,算法为CRT,单击ok。
6.单击第4点图generate中的missing value supernode,生成missing value imputation,后续的添加模型生成数据、进行分析的操作同上。
7.分析结果如下。
七、实验结果及分析
1.模型务必按顺序建立,并依次连接依次设置运行。一般顺序为:数据导入,数据筛选并生成数据包,确定模型并生成数据包,分析模型准确率等。
2.预处理是数据挖掘中最重要的部分。在数据进入模型之前,我们可以使用R进行数据预处理,将数据离散化,也可以在clementine中筛选出重要属性,对缺失值进行合理填充,以此得到可信度较高的模型。
3.模型的设置对结果的得出也至关重要,要防止过度拟合,也
您可能关注的文档
- 《力学综合演示仪》中学物理创意实验设计参评申报表.doc
- 《功夫熊猫2》背后的文化与市场价值_final.doc
- 《功夫熊猫》经典台词,经典语录.doc
- 《动火作业安全管理程序(试行)》.doc
- 《动物王国》主题绘本课程.doc
- 《动画分镜台本》完整教案.doc
- 《动画场景设计》.doc
- 《动画技法》项目六初稿.doc
- 《劳动与社会保障法》题库.doc
- 《北京市预拌混凝土生产使用质量专项治理两年行动工作方案》的通知.doc
- 人教版小学五年级下册数学期末试卷及参考答案【研优卷】.docx
- 人教版小学五年级下册数学期末试卷及答案【典优】.docx
- 人教版小学五年级下册数学期末测试卷(重点).docx
- 人教版小学五年级下册数学期末测试卷(综合题)word版.docx
- 人教版小学五年级下册数学期末测试卷(精品)word版.docx
- 人教版小学五年级下册数学期末测试卷(精选题).docx
- 人教版小学五年级下册数学期末试卷及答案【名师系列】.docx
- 人教版小学五年级下册数学期末测试卷附答案(综合卷).docx
- 人教版小学五年级下册数学期末测试卷(夺分金卷).docx
- 人教版小学五年级下册数学期末试卷及完整答案(有一套).docx
最近下载
- 2025年中国铁路武汉局集团有限公司招聘毕业生(四)【135人】笔试参考题库附带答案详解.docx
- 最新高二语文下学期期末试卷附答案一套.docx VIP
- 外研版高中《英语》(新标准)必修二Unit6 单元整体教学设计附作业设计.docx
- 毛概电子书.doc
- 紫外线钣金灰行业报告.pptx
- 外研版高中《英语》(新标准)必修二Unit5 单元整体教学设计附作业设计.doc
- CQC13464225-2024电力储能用锂离子电池安全与性能认证规则.pdf
- 外研版高中《英语》(新标准)必修二Unit1 单元整体教学设计附作业设计.doc
- 洪洞悦昌煤业副斜井施工组织设计方案.docx
- (四调)武汉市2025届高中毕业生四月调研考试 数学试卷(含答案详解).pdf
文档评论(0)