数据挖掘 主题:第五章作业.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘 主题:第五章作业

本科生实验报告 实验课程 数据挖掘 学院名称 信息科学与技术学院 专业名称 计算机科学与技术 学生姓名 代星 学生学号 201413030317 指导教师 实验地点 实验成绩 二〇一六 年 11 月 二〇一六 年 11月 第五章作业题一 第1章 实验内容 在UCI上下载一个用于分类的数据集,使用C4.5算法,设置不同的参数建立两个有指导的学习,记录检验集错误率。使用式(5,9)确定两个模型的检验集错误率是否存在显著差异。 第2章 实验目的 对于一个用于分类的数据集,使用C4.5算法,设置不同的参数建立两个有指导的学习,记录检验集错误率。使用式(5,9)确定两个模型的检验集错误率是否存在显???差异,从而学会评估有指导的学习模型。 第3章 算法思想 选择具有最大增益率的属性作为分支节点来分类实例数据。 第4章 实验过程 4.1数据准备 数据集名为IRIS.xls,选择所有150个实例和5个属性,其中4个属性作为输入属性,第5个属性Iris_type作为输出属性,生成.csv文件,加载到Weka。 4.2 建立模型 使用Weka进行有指导的学习训练,选择C4.5数据挖掘算法,在Weka中名为J48,将test options 设置为 Percentage split ,使用百分比72%,选择Iris_type作为输出属性。单击Moreoptions按钮,打开Classifier evaluation options 对话框,在Output predictions点击choose选中PlainText。表示将在输入结果中显示作为检验集实力的计算输出。单击Start按钮,执行程序。查看混淆矩阵,计算错误率为9.5%。 通过分析混淆矩阵,重新设置参数使用百分比66%,重复上述步骤,执行程序,计算错误率为3.9%,较之前有了些许提升。 接下来通过假设检验来比较两个用同样训练集创建的有指导的学习模型。公式如上图所示。其中E1为模型M1的检验集分类错误率;E2为模型M2的检验集分类错误率;q为两个模型分类错误率的平均值,即q=(E1+E2)/2;n1和n2分别是检验集A和B的实例个数;q(1-q)是用E1和E2计算出来的方差值。代入数据可得最后的Z=0.057,如果Z值大于等于1.96,就有95%的把握认为M1和M2的检验集性能差别是显著的。此时算出来的是0.057,就说明两个聚类算法的性能差别不是显著的。 第5章 实验结果 1、修改参数前:C4.5数据挖掘算法: 2、修改参数后:C4.5数据挖掘算法: 第6章 结果分析 通过观察混淆矩阵,并记录检验集错误率,从而修改参数使错误率减小,虽然通过计算结果改进的不明显,但是通过实验掌握了学习方法。 第7章 心得体会 通过这次试验,在以前的基础上更加深入的了解了C4.5决策树算法以及Weka软件的使用。 第五章作业题二 第1章 实验内容 使用心脏病人数据集(CardiologyNumerical)的前150个实例作为训练集实例,剩下的153个实例作为检验集实例,选择两种或多种数据挖掘技术建立有指导的学习模型,利用混淆矩阵和检验集错误率评估所建模型,并使用假设检验确定这些模型之间是否存在显著性差异。 第2章 实验目的 选择两种或多种数据挖掘技术建立有指导的学习模型,利用混淆矩阵和检验集错误率评估所建模型,并使用假设检验确定这些模型之间是否存在显著性差异,从而学会评估有指导的学习模型。 第3章 算法思想 一、 k-means 算法: 随机选择一个K值,用以确定簇的总数。 在数据集中任意选择K个实例,将它们作为初始的簇中心。 计算K个簇中心与其他剩余实例简单欧氏距离,用这个距离作为实例之间相似性的度量,将与某个簇相似度高的实例划分到该簇中,成为其成员之一。 使用每个簇中的实例来计算该簇新的簇中心。 如果计算得到新的簇中心等于上次迭代的簇中心,终止算法过程。否则用新的簇中心作为簇中心并重复步骤(3)~(5)。 二、最大期望(EM)算法:是在

文档评论(0)

shuwkb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档