分类实验报告.docVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类实验报告

数据挖掘试验报告二 姓名: 学号: 班级: 试验目的: 通过使用SPSS Clementine数据挖掘平台,了解数据挖掘的目的、过程,理解数据挖掘的结果,并能够根据所学习的数据挖掘的相关知识,对挖掘的过程参数和结果数据进行分析。 试验内容: 分类 试验步骤: 1.打开Clementine11软件 a)从“开始”菜单中,单击“所有程序” b)在“SPSS Clementine11.1”选择“SPSS Clementine Client 11.1” 2.导入数据源 a)选择“可变文件”节点,把节点图标拖入数据流区域 b)双击“可变文件”节点,弹出节点细节选择界面 c)单击“browser for file”按钮,选择Demos文件夹下的“BASKETS1n”文件,点击“打开”按钮。 d)单击“确定”按钮 e)节点自动改名字为“BASKETS1n” 3.查看导入的数据 a)点击节点选项卡“输出”,双击“表格”节点 b)右键点击“BASKETS1n”节点,选择“Connect”选项,单击“Table”(在两个节点中产生一个箭头,从“BASKETS1n”指向“Table”节点。) c)双击“表格”节点,弹出细节选择界面,单击“执行” d)查看结束,单击“确定”退出查看表格 4.为数据添加新的列 注:假设同时购买鲜肉和奶制品的顾客为健康食品购买者,添加一个新列叫:health。凡是对应鲜肉和奶制品都为T的顾客新列为T,否则为F。 a)点击节点选项卡“字段选项”,双击“导出”节点 b)连接数据节点“BASKETS1n”与“导出”节点,箭头指向“导出“节点 c)双击“导出”打开节点细节选择页面,修改“导出字段”对话框值为“Health” “导出为”下拉选项中选择“标识”,修改“真值”为“T”,“假值”为“F” d)点击右侧“启动表达式构建器”按钮,在对话框中输入:freshmeat = T and dairy = T e)点击“检查”,对话框样字体颜色变黑表示语法没有问题。点击“确定” f)单击“导出”细节选择页面“确定”按钮 5.查看添加新列数据 a)点击节点选项卡“输出”,双击“表”节点 b)右键点击“Health”节点,选择“Connect”选项,单击“表”(在两个节点中产生一个箭头,从“Health”指向“表”节点。) c)双击“表”节点,弹出细节选择界面,单击“执行” d)查看结束,单击“确定”退出查看表格 6.对数据进行清洗 a)选择节点选项卡的“字段选项”,把“类型”节点拖入数据流区域。 b)连接“Health”节点和“类型”节点 c)双击数据流区域中的“类型”节点,单击“读取值”按钮 d)对应列“字段”把cardid;freshmeat;dairy;cannedveg;cannedmeat;frozenmeal;beer; wine;softdrink;fish;confectionery的“方向”值改为“无”;把value;pmethod;sex;homeown;income;age的“方向”值改为“输入”;把Health的“方向”值改为“输出”。 7.使用C5.0节点分析 a)双击“建模”选项卡的“C5.0”节点 b)连接“类型”节点与“C5.0”节点 (箭头指向“C5.0”节点) c)双击“C5.0”节点,弹出选项界面 d)单击“执行”按钮 8.查看挖掘结果 a)左键单击管理器的“模型”选项卡,右键点击执行以后出现的模型图标;右键选择“浏览”,弹出图表 b)点击“模型”和“查看器”选项卡查看结果 9.将“模式”改为“专家”,修改“修剪严重性”和“每个子分支的最小记录数”,查看结果并进行比较分析。 分析:结果表明同时购买鲜肉和奶制品的顾客在1000个人中只有33人,概率仅为3.3%,对其进行分类不能得出健康食品购买者的特征,所以没有分类。 10.使用二元分类器节点分析 分析:其结果与C5节点分析的相同。不能得出购买自定义的健康食品的顾客的特征。 分类方法 方法 原理 算法 优点 缺点 适用范围 算法:Generate_decision_tree由给定的训练数据产生一棵决策树 输入:训练数据集samples,用离散值属性表示;候选属性的集合attribute_list。 输出:一棵决策树 方法: (1)创建结点N; (2)if samples 都在同一个类C then (3)返回N作为叶结点,用类C标记; (4)if attribute_list 为空 then (5)返回N作为叶结点,标记samples中最普通的类; (6)选择attribute_list中具有最高信息增益的属性test_attribute; (7)标记结点N为test_attribute; (8)for each test_attrib

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档