评估有指导学习模型(心脏病数据集)课案.docx

下载文档 降价啦

15
0
约3.77千字
约 8页
2017-05-28 发布于湖北
举报
版权申诉
保障服务

评估有指导学习模型(心脏病数据集)课案.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

评估有指导学习模型(心脏病数据集)课案

`题目数据挖掘评估技术学院名称信息科学与技术学院专业名称计算机科学与技术学生姓名何东升学生学号 201413030119指导教师实习地点成都理工大学实习成绩二〇一六年9月评估有指导学习模型、实验目的及内容1.1 实习目的模型的评估是对数据挖掘而过程非常重要的步骤，是模型是否能够最终投入实际应用的重要环节。在抽取某些数据实例和属性，选择某种数据挖掘技术，设置某些参数进行有指导的学习训练和无指导的聚类分析之后，所建立在性能上差强人意，不能满足解决问题的需求，此时，需要对这个过程所有可能对模型性能产生的因素进行检查和评估，找出可能的问题所在加以调整，重复试验，直到模型性能能达到预期的标准。1.2 算法的核心思想使用混淆矩阵和分类正确率以及假设检验比较模型。在机器学习领域，混淆矩阵（confusion matrix），又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果，通常是监督学习（非监督学习，通常用匹配矩阵：matching matrix）。其每一列代表预测值，每一行代表的是实际的类别。这个名字来源于它可以非常容易的表明多个类别是否有混淆（也就是一个class被预测成另一个class）。假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是：根据问题的需要对所研究的总体作某种假设，记作H0；选取合适的统计量，这个统计量的选取要使得在假设H0成立时，其分布为已知；由实测的样本，计算出统计量的值，并根据预先给定的显著性水平进行检验，作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法，秩和检验等。1.3实验工具实验软件：Weka3.9数据集来源：配套数据集cardiologynumerical.csv第2章、实验过程2.1数据准备cardiologynumerical.csv数据集说明属性名称数值类型说明AgeNumeric年龄Sex1,0性别Chest Pain Type1,2,3,4胸痛类型（绞痛，异常绞痛，无绞痛，无症状）Blood PressureNumeric静息血压CholesterolNumeric血清胆固醇Fasting Blood Suager0,1空腹血糖低于120？Resting ECG0,1,2静息心电图（正常，异常，左心室肥大）Maxium Hert RateNumeric最大心率Induced Angina？1,0诱发心绞痛？Old Peak Numeric峰值Slope1,2,3斜度Number Colored Vessels0,1,2,3,4有色导管编号Thal3,6,7地中海缺血Concept ClassYes，No概念类2.2 实验过程 2.2.1.建模1.将数据集导入Weka中2.打开Classfy选项选择不同的算法在Test Option 选项中选择Precentage Split，值为50%（150个为训练集剩下的为验证）（1）J48算法算法的混淆矩阵如下患病不患病患病5617不患病1365=== Summary ===Correctly Classified Instances 121 80.1325 %Incorrectly Classified Instances 30 19.8675 %Kappa statistic 0.6015Mean absolute error 0.2326Root mean squared error 0.4367Relative absolute error 46.746 %Root relative squared error 86.8754 %Total Number of Instances 151 可以看出结果的分类确率到了80.1325 %，已经还不错了。（2）ZeroR算法算法的混淆矩阵如下患病不患病患病073不患病078=== Summary ===Correctly Classified Instances 7