- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
5临床科研设计数据挖掘研究设计概论
临床科研设计(5)——数据挖掘研究设计;数据挖掘研究;;;数据挖掘的概念;第一步骤
选择;;第一步:选择数据;;海量数据,大量的业务数据。
问题也很多,标准不统一,很难分析。
与临床相关的电子病历系统结构化与临床工作量之间的矛盾。
中医系统——医疗科研信息一体化系统
军队系统——中国重大疾病临床诊疗数据库;;第二步:处理数据;为什么需要预处理;污染数据形成的原因;例:中药、证型、症状的预处理;建立一个中药规范表;建立证型规范表;建立症状规范表;数据处理两种结构化技术;;第三步:挖掘分析;数据挖掘主要方法;数据挖掘软件应用;;第四步:结果解释;;Clementine 软件应用;Clementine 12.0安装方法;;*;节点——一个图标代表在 Clementine 中进行的一个操作。
工作流——一系列连接在一起的节点。;选项板;增加一个节点;编辑一个节点;连接节点;删除节点之间的连接;Clementine 中读取数据格式;读取原始文件;读取文本文件;读取EXCEL文件;读取其他数据文件;定义字段类型;连续型 – 用于描述数值,如0-100 或者0.75-1.25 内的连续值一个连续值可以是整数、实数或日期/时间
离散型–用于当一个具体值的精确数量未知时描述字符串,一旦数据被读取,其类型就会是标记、集合或者无类型
集合型 – 用于描述带有多个具体值的数据(黄、绿、蓝)
标记型 –用于只取两个具体值的数据(真、假)
无类型 –用于不符合上述任一种类型的数据或者含有太多元素的集合类型数据;字段方向;字段实例化;数据挖掘分析的一般步骤;1、数据整理;2、数据格式转换;3、数据文件读入;;查看读入数据是否成功;4、数据类型设置;5、模型选择与参数设置;6、结果输出与解读;;关联规则基本概念;规则置信度是对简单关联规则准确度的测量,描述了包含项目X的事务中同时也包含项目Y的概率。
规则支持度是对简单关联规则普遍性的测量,表示项目X和项目Y同时出现的概率。一个理想的简单关联规则应具有较高的置信度和较高的支持度。
提升度表示项目X同时伴有项目Y出现的可能性是项目X单独出现的可能性的倍数。;置信度、支持度、提升度的概念;编号;单味药频次;设定最小支持度50%最小置信度50%;症状与中药之间;症状与症状之间;中药与中药之间
症状与症状之间
证型与证型之间
中药与症状之间
中药与证型之间
症状与证型之间;关联规则应用实例;软件操作——数据文件读入;软件操作——数据类型设置;全部设置完成后,读取变量(字段实例化);软件操作——模型选择与参数设置;两两关联分析的变量定义;最小置信度、最小支持度定义;软件操作——结果输出与解读;输出了最小支持度和置信度均在50%以上的药对。;关联分析完整数据流图;;决策树基本概念;决策树应用实例;决策树分析需要回答的问题;软件操作——数据文件读入;软件操作——数据类型设置;软件操作——模型选择与参数设置;决策目标和输入变量设置;软件操作——结果输出与解读;决策树分析完整数据流图;;聚类分析基本概念;聚类分析应用实例;软件操作——数据文件读入;软件操作——数据类型设置;软件操作——模型选择与参数设置;输入变量设置;分类数设置;软件操作——结果输出与解读;K-Means聚类分析完整数据流图;;判别分析基本概念;判别分析应用实例;软件操作——数据文件读入;软件操作——数据类型设置;软件操作——模型选择与参数设置;输入、目标变量设置;模型参数设置;模型参数设置;模型参数设置;软件操作——结果输出与解读;;;判别分析完整数据流图;小结(1);小结(2);
谢 谢!
文档评论(0)