5临床科研设计数据挖掘研究设计研讨.ppt

下载文档 降价啦

3
0
约 134页
2017-05-08 发布于湖北
举报
版权申诉
保障服务

5临床科研设计数据挖掘研究设计研讨.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

5临床科研设计数据挖掘研究设计研讨

模型参数设置模型参数设置软件操作——结果输出与解读非标准化判别函数 Y=-21.447+0.661*x1+0.137*x2 Y0判断为第1类 Y0判断为第2类 Fishers判别函数，参数分别代入2个函数 Y1=11.601*x1+11.725*x2-558.679 Y2=5.265*x1+10.408*x2-353.095 比较Y1和Y2的大小，哪个大就归到哪一类判别分析完整数据流图小结（1）数据采集：信息真实性，可靠性，代表性数据预处理：规范整齐的数据是最大的问题，事先确定标准，或者事后按标准进行数据清理。数据挖掘：不只是描述，需要借助数据挖掘工具。也不仅是统计，统计是验证假设，数据挖掘是发现规律。数据挖掘分析本质上为发现规律，这种规律是否有意义，则需要进行统计学验证。 * 小结（2） SPSS Clementine使用的两个关键点：会使用常用节点：原始文件、table、type设置、算法模型。理解算法，并根据算法特征整理原始数据、设置字段类型及输入输出关系、设置模型参数。 * 谢谢! * * * SPSS Inc. Copyright 2006 SPSS Inc. * 数据流区域（Stream canvas）：数据流区域是Clementine 窗口中最大的区域，在这个区域可以建立数据流，也可以对数据流进行操作每次在Clementine 中可以多个数据流同时进行工作，或者是在同一个数据流区域有多个数据流，或者新打开一个数据流文件在一项任务中，数据流被存储在管理器中选项板区（Palettes）：位于Clementine窗口底端每个包含了一组相关的可以用来加到数据流中的节点比如：Sources包含了可以把数据读入模型的节点，Graphs包含了可以用于可视化探索数据的节点，Favorites包含了数据挖掘默认的常用节点当你更熟悉Clementine后，就可以按照自己的要求来定制这些内容管理器（Managers）：在Clementine窗口右上有3种管理器分别是Streams, Outputs和Models，这是用来查看和管理相应类型的对象Streams是用来打开，重命名，保存和删除在数据流区域中建的数据流而Outputs则是用来储存Clementine输出，例如图表之类还可以直接利用这个管理器来储存输出的结果对象Models是所有管理器中最强大的，它包含了机器学习和 Clementine实施建模的结果这些模型可以通过Models直接浏览，也可以加入到数据流中项目（Projects）：Clementine窗口右下部就是Projects窗口，这个窗口提供了一种在Clementine 中组织数据挖掘各个步骤的有效的方法欲知详情，可以参考“第十六章建立项目和报告”中的“16.1 项目介绍” 报告窗口（Report window）：选项板区的下面就是报告窗口，它记录的是各种不同操作过程的响应，比如当数据被读入数据流时状态窗口（Status window）：同样是在选项板区的下面，这个窗口可以告诉用户clementine正 17 在进行什么操作；同时如果需要用户对操作回应时可以给出提示 * * * 决策树分析完整数据流图数据挖掘研究设计基本概念选择数据处理数据挖掘分析结果解释 Clementine 软件应用基本操作关联规则决策树聚类分析判别分析聚类分析基本概念聚类分析是根据“物以类聚”的原理，对样品或指标进行分类的一种多元统计分析方法。通过聚类分析，可以在没有任何模式可供参考的情况下，将大量数据样本按各自的特征来进行合理分类。聚类分析应用实例【例3】收集了某一时间范围内53例某疾病患者的14项中医症状情况，该类疾病临床常见的证型为3种。现采用聚类分析方法进行聚类分析，将这些病人聚成3类，分析每一类特征。软件操作——数据文件读入数据文件读入的第一步是构建一个原始文件节点，通过编辑原始文件节点，选定文件路径，读取原始数据文件。点击“确定”后，该数据节点就有了可分析的原始数据。为了查看原始数据是否正确读入，可增加table节点，查看原始数据是否已经被读入，格式是否准确，有无乱码等情况。软件操作——数据类型设置设置文件类型多分类为set，连续资料为rang。聚类分析中，类别变量设置方向为out，其他作为聚类依据的变量设置为in。软件操作——模型选择与参数设置在读取原始数据和数据格式定义好以后，就可以根据数据挖掘分析的需要选择相应的模型，在聚类分析中可选择K-means、Kohonen、Twostep等3种节点。本例采用K-means 节点。输入变量设置分类数设置软件操作——结果输出与解读 K-Means聚类分析