5临床科研设计数据挖掘研究设计研讨.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
5临床科研设计数据挖掘研究设计研讨

模型参数设置 模型参数设置 软件操作——结果输出与解读 非标准化判别函数 Y=-21.447+0.661*x1+0.137*x2 Y0判断为第1类 Y0判断为第2类 Fishers判别函数, 参数分别代入2个函数 Y1=11.601*x1+11.725*x2-558.679 Y2=5.265*x1+10.408*x2-353.095 比较Y1和Y2的大小,哪个大就归到 哪一类 判别分析完整数据流图 小结(1) 数据采集:信息真实性,可靠性,代表性 数据预处理:规范整齐的数据是最大的问题,事先确定标准,或者事后按标准进行数据清理。 数据挖掘:不只是描述,需要借助数据挖掘工具。也不仅是统计,统计是验证假设,数据挖掘是发现规律。 数据挖掘分析本质上为发现规律,这种规律是否有意义,则需要进行统计学验证。 * 小结(2) SPSS Clementine使用的两个关键点: 会使用常用节点:原始文件、table、type设置、算法模型。 理解算法,并根据算法特征整理原始数据、设置字段类型及输入输出关系、设置模型参数。 * 谢 谢! * * * SPSS Inc. Copyright 2006 SPSS Inc. * 数据流区域(Stream canvas):数据流区域是Clementine 窗口中最大的区域,在这个区域可以 建立数据流,也可以对数据流进行操作每次在Clementine 中可以多个数据流同时进行工作, 或者是在同一个数据流区域有多个数据流,或者新打开一个数据流文件在一项任务中,数据 流被存储在管理器中 选项板区(Palettes):位于Clementine窗口底端每个包含了一组相关的可以用来加到数据流 中的节点比如:Sources包含了可以把数据读入模型的节点,Graphs包含了可以用于可视化探 索数据的节点,Favorites包含了数据挖掘默认的常用节点当你更熟悉Clementine后,就可以按 照自己的要求来定制这些内容 管理器(Managers):在Clementine窗口右上有3种管理器分别是Streams, Outputs和Models, 这是用来查看和管理相应类型的对象Streams是用来打开,重命名,保存和删除在数据流区域 中建的数据流而Outputs则是用来储存Clementine输出,例如图表之类还可以直接利用这个 管理器来储存输出的结果对象Models是所有管理器中最强大的,它包含了机器学习和 Clementine实施建模的结果这些模型可以通过Models直接浏览,也可以加入到数据流中 项目(Projects):Clementine窗口右下部就是Projects窗口,这个窗口提供了一种在Clementine 中组织数据挖掘各个步骤的有效的方法欲知详情,可以参考“第十六章 建立项目和报告”中 的“16.1 项目介绍” 报告窗口(Report window):选项板区的下面就是报告窗口,它记录的是各种不同操作过程的 响应,比如当数据被读入数据流时 状态窗口(Status window):同样是在选项板区的下面,这个窗口可以告诉用户clementine正 17 在进行什么操作;同时如果需要用户对操作回应时可以给出提示 * * * 决策树分析完整数据流图 数据挖掘研究设计 基本概念 选择数据 处理数据 挖掘分析 结果解释 Clementine 软件应用 基本操作 关联规则 决策树 聚类分析 判别分析 聚类分析基本概念 聚类分析是根据“物以类聚”的原理,对样品或指标进行分类的一种多元统计分析方法。 通过聚类分析,可以在没有任何模式可供参考的情况下,将大量数据样本按各自的特征来进行合理分类。 聚类分析应用实例 【例3】收集了某一时间范围内53例某疾病患者的14项中医症状情况,该类疾病临床常见的证型为3种。现采用聚类分析方法进行聚类分析,将这些病人聚成3类,分析每一类特征。 软件操作——数据文件读入 数据文件读入的第一步是构建一个原始文件节点,通过编辑原始文件节点,选定文件路径,读取原始数据文件。点击“确定”后,该数据节点就有了可分析的原始数据。 为了查看原始数据是否正确读入,可增加table节点,查看原始数据是否已经被读入,格式是否准确,有无乱码等情况。 软件操作——数据类型设置 设置文件类型多分类为set,连续资料为rang。 聚类分析中,类别变量设置方向为out,其他作为聚类依据的变量设置为in。 软件操作——模型选择与参数设置 在读取原始数据和数据格式定义好以后,就可以根据数据挖掘分析的需要选择相应的模型,在聚类分析中可选择K-means、Kohonen、Twostep等3种节点。 本例采用K-means 节点。 输入变量设置 分类数设置 软件操作——结果输出与解读 K-Means聚类分析

文档评论(0)

ccx55855 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档