数据挖掘实验汇报.docVIP

下载本文档

22
0
约2.95千字
约 12页
2017-03-15 发布于四川
举报
版权申诉

数据挖掘实验汇报.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘实验报告 ——药物研究专业：学号：姓名：时间：2011.12.08 一、实验目的 1、学习数据挖掘的理论知识，理解数据挖掘的目的和意义； 2、熟悉SPSS Clementine软件的功能，并学习使用该软件对数据进行分析； 3、对该软件提供的数据DRUG1n进行分析，了解人体的血压、类胆固醇、Na、K等的含量对人体的健康状况的影响。二、实验环境系统环境：Windows XP 软件环境：SPSS Clementine11.1 软件简介：作为一个数据挖掘平台， Clementine结合商业技术可以快速建立预测性模型，进而应用到商业活动中，帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比， Clementine其功能强大的数据挖掘算法，使数据挖掘贯穿业务流程的始终，在缩短投资回报周期的同时极大提高了投资回报率。 SPSS Clementine软件中提供的数据DRUG1n，一共有200条数据，包含7个字段分别是Age（年龄）、 Sex（性别）、 BP（血压）、 Cholesterol （类胆固醇含量）、Na （Na含量）、K（K含量）、 Drug（药品种类）。三、实验数据本实验所使用的数据是SPSS Clementine软件中提供的数据DRUG1n，一共有200条数据，包含7个字段分别是Age（年龄）、 Sex（性别）、 BP（血压）、 Cholesterol （类胆固醇含量）、Na （Na含量）、K（K含量）、 Drug（药品种类）。四、实验步骤与分析过程本次实验，首先DRUG1n中的数据进行了一个简单的分析和解释，比如说Drug（药品）的分布情况、Na和K的含量等的分析。接着决策树分析的方法对数据进行分类和分析。本实验所建立的数据流如图1所示，图1 具体的分析步骤如下：第一部分：新建工作流，附加数据 1、打开软件，新建一个流，命名“Drug分析”。从数据源中选择“可变文件”拖入工作框，双击附加添加。如图2。图2 第二部分：步骤1-4所示对Drug 1n的数据进行一个简单探索，了解数据的组成规律。步骤5、6所示，对字段进行选择重新分析Na和K的浓度.步骤7-11，先对数据进行过滤后执行C5.0分析。图3 1、浏览数据内容。在输出选项中选择“表格”节点加到数据流中，执行该节点，如图3中的1-1步骤，所生成的数据表名将列在流管理窗口的输出选项中，结果如图4所示。图4 2、观察各个变量的数据分布特征。在输出选项卡中选择“数据审核”节点添加到数据流中，执行该节点，如图3中的1-2步骤，所生成的数据如图5所示。图5 可以看到，该数据有200个样本，7个字段。对Age、Na、K这三个数值型变量，计算且输出最小值、最大值、均值、标准值、偏系数等基本描述统计量。数据显示，病人的年龄差距比较大。 3、不同血压特征病人的药物选择。在“图形”选项卡中选择“网络”节点加到数据流中，设置节点参数指定绘制关于Drug和BP的网状图，执行该节点，如图3中1-3步骤，所生成的图形如图6所示。图6 4、观察服用不同药物的病人唾液中钾钠的含量情况。在“图形”选项卡中选择“图形”节点加到数据流中，设置节点参数，指定Na为X轴，K为Y轴，服用不同的Drug的病人采用不同颜色的点，执行该节点，执行该节点，如图3中1-4步骤，所生成的图形如图7所示。图7 5、观察服用不同药物病人唾液中钠钾的浓度比例情况。为了更准确地评价药物状况单纯的。在“字段”选项卡中选择“导出”节点加到数据流中，设置节点参数，指定Na为X轴，K为Y轴，服用不同的Drug的病人采用不同颜色的点，执行该节点，执行该节点，如图3中5步骤。 6、从导出的新字段中，选择“图形”中的“直方图”选项卡，设置节点参数绘制Na/K的直方图，且服用不同药物的病人采用不同的颜色。执行该节点，如图3的步骤6，所生成的图形如图8所示。图8 7、全面分析决定药物所选择的其他影响因素。通过前面的分析，似乎对选择DrugY的依据有了一定的结论，但是没有考虑Age、Sex、BP、Cholesterol、Na/K的综合角度分析选择不同的药物依据。首先，在建模中将不再直接采用Na和K的变量，而是采用Na/K，因此应先将变量K和Na删掉。在“字段”中选择“类型”节点加到数据流中，如图3中的步骤7，如图