评估有指导学习模型(心脏病数据集)课案.docx

评估有指导学习模型(心脏病数据集)课案.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
评估有指导学习模型(心脏病数据集)课案

`题 目数据挖掘评估技术学院名称 信息科学与技术学院 专业名称 计算机科学与技术 学生姓名何东升学生学号 201413030119指导教师实习地点 成都理工大学 实习成绩二〇 一六年9月评估有指导学习模型、实验目的及内容1.1 实习目的模型的评估是对数据挖掘而过程非常重要的步骤,是模型是否能够最终投入实际应用的重要环节。在抽取某些数据实例和属性,选择某种数据挖掘技术,设置某些参数进行有指导的学习训练和无指导的聚类分析之后,所建立在性能上差强人意,不能满足解决问题的需求,此时,需要对这个过程所有可能对模型性能产生的因素进行检查和评估,找出可能的问题所在加以调整,重复试验,直到模型性能能达到预期的标准。1.2 算法的核心思想使用混淆矩阵和分类正确率以及假设检验比较模型。在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:matching matrix)。其每一列代表预测值,每一行代表的是实际的类别。这个名字来源于它可以非常容易的表明多个类别是否有混淆(也就是一个class被预测成另一个class)。假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法,秩和检验等。1.3实验工具实验软件:Weka3.9数据集来源:配套数据集cardiologynumerical.csv第2章、实验过程2.1数据准备cardiologynumerical.csv数据集说明属性名称数值类型说明AgeNumeric年龄Sex1,0性别Chest Pain Type1,2,3,4胸痛类型(绞痛,异常绞痛,无绞痛,无症状)Blood PressureNumeric静息血压CholesterolNumeric血清胆固醇Fasting Blood Suager0,1空腹血糖低于120?Resting ECG0,1,2静息心电图(正常,异常,左心室肥大)Maxium Hert RateNumeric最大心率Induced Angina?1,0诱发心绞痛?Old Peak Numeric峰值Slope1,2,3斜度Number Colored Vessels0,1,2,3,4有色导管编号Thal3,6,7地中海缺血Concept ClassYes,No概念类2.2 实验过程 2.2.1.建模1.将数据集导入Weka中2.打开Classfy选项选择不同的算法在Test Option 选项中选择Precentage Split,值为50%(150个为训练集剩下的为验证)(1)J48算法算法的混淆矩阵如下患病不患病患病5617不患病1365=== Summary ===Correctly Classified Instances 121 80.1325 %Incorrectly Classified Instances 30 19.8675 %Kappa statistic 0.6015Mean absolute error 0.2326Root mean squared error 0.4367Relative absolute error 46.746 %Root relative squared error 86.8754 %Total Number of Instances 151 可以看出结果的分类确率到了80.1325 %,已经还不错了。(2)ZeroR算法算法的混淆矩阵如下患病不患病患病073不患病078=== Summary ===Correctly Classified Instances 7

您可能关注的文档

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档