- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
临床科研设计数据挖掘研究设计
数据挖掘研究
基于数据分析方法角度的分类
本质上属于观察性研究
研究资料来源于日常诊疗工作资料
应用的技术较传统研究更先进
分析工具、理论模型与传统研究区别较大
数据挖掘研究设计
基本概念
选择数据
处理数据
挖掘分析
结果解释
Clementine 软件应用
基本操作
关联规则
决策树
类神经网络
聚类分析
判别分析
数据挖掘的概念
数据挖掘——从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。
数据挖掘——从数据中自动地抽取模式、关联、变化、异常和有意义的结构。
数据挖掘——利用已有的数据,数据收集过程不经过特意的科研设计,目的是发现规律,而不是验证假设。
数据挖掘研究的基本步骤
第一步:选择数据
收集获取原始数据
就是根据研究目的,进行需要被挖掘分析的原始数据采集。
评估数据的可获得性。可以采用较小规模的数据对问题的可行性进行初步研究。
原始数据可能会分布于不同的信息系统中,需要对信息系统充分理解,并有相应的技术实现数据的导出。
原始数据的采集非常费时费力,通常在研究工作中占相当大的比重。
第二步:处理数据
数据预处理部分,把数据转换成比较容易被数据挖掘的格式及内容。
为什么需要预处理
数据
不完整
含观测噪声
不一致
包含其它不希望的成分
数据清理通过填写空缺值,平滑噪声数据,识别删除孤立点,并解决不一致来清理数据。
污染数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务。
污染数据形成的原因
滥用缩写词
数据输入错误
数据中的内嵌控制信息
不同的惯用语
重复记录
丢失值
拼写变化
不同的计量单位
过时的编码
数据处理两种结构化技术
前结构化:在数据采集阶段即进行结构化设计、录入,数据分析阶段取到的数据都是规范的。事前的工作量很大。
后结构化:在数据录入阶段进行自由输入,分析时按照一定的规则进行语义分析和结构化处理。
第三步:挖掘分析
运用工具和算法,进行数据挖掘分析,完成分类、关联、聚类、估计、预测等功能,发现数据中的规律。
数据挖掘主要方法
决策树 Decision Trees (倾向性分析)
序列分析 Sequence Analysis
聚类分析 Clustering
关联分析 Association
神经网络 Neural Networks
第四步:结果解释
结合专业知识,进行数据挖掘分析结果的解释,阐明规律,以及规律的临床价值。
结果解释是数据挖掘研究的关键,从发现的规律进一步延伸出其实际意义,是整个研究工作的成果所在
数据挖掘分析的一般步骤
1、数据整理
2、数据格式转化
3、数据文件读入
4、数据类型设置
5、模型选择与参数设置(关联规则;决策树;类神经网络;聚类分析;判别分析)
6、结果输出与解读
关联规则基本概念
是分析两个或多个变量的取值之间存在某种规律性的方法,包括简单关联规则和系列关联规则。
简单关联规则有效性的主要测度指标包括两个:规则置信度和规则支持度。
规则置信度是对简单关联规则准确度的测量,描述了包含项目X的事务中同时也包含项目Y的概率。
规则支持度是对简单关联规则普遍性的测量,表示项目X和项目Y同时出现的概率。一个理想的简单关联规则应具有较高的置信度和较高的支持度。
决策树基本概念
在数据挖掘中,决策树是分类预测的经典算法。决策树算法的目的是通过向数据学习,获得输入变量和输出变量不同取值下的数据分类和预测规律,并用于对新数据对象的分类预测。
SPSS Clementine提供C5.0、CART、CHAID、QUEST在内的决策树经典算法。
类神经网络基本概念
类神经网络,有时也称作多层感知器(MLPs),本质上是人脑处理信息方式的简化模型。它通过模拟大量相互连接的简单处理单元(即神经元)工作,它在一定程度上模仿了人脑神经系统的信息处理、存储及检索功能。
聚类分析基本概念
聚类分析是根据“物以类聚”的原理,对样品或指标进行分类的一种多元统计分析方法。
通过聚类分析,可以在没有任何模式可供参考的情况下,将大量数据样本按各自的特征来进行合理分类。
判别分析基本概念
判别分析的主要目的是对数据的个体做分类,利用判别变量建立判别规则,再用此判别规则对所有的个体做分类,预测每个个体属于各群组的可能机率。
判别分析是判别所属类型的一种统计方法,其应用之广可与回归分析媲美。回归分析可建立回归函数,判别分析则建立判别函数,两者皆可以用来进行预测。
小结(1)
数据采集:信息真实性,可靠性,代表性
数据预处理:规范整齐的数据是最大的问题,事先确定标准,或者事后按标准进行数据清理。
数据挖掘:不只是描述,需要借助数据挖掘工具。也不仅是统计,统计是验证假设,数据挖掘是发现规律。
小结(2)
SPSS Clementin
您可能关注的文档
最近下载
- 金蝶云星空 V7.7_产品培训_供应链_组织间结算.pptx VIP
- 基于CFD的某特种电动汽车空气动力学分析与改进设计.docx VIP
- 金蝶云星空+V7.5.1产品培训_财务_存货核算.pptx VIP
- 金蝶云星空标准版V8.1_产品学习_存货核算.pptx VIP
- 2025年材料进场验收、见证取样和送检制度.pdf VIP
- 金蝶云星空标准版V8.1_产品学习_出纳管理.pptx VIP
- 《我喜欢红色》朗诵词(转载).pdf VIP
- 金蝶云星空V8.1产品培训_制造_质量管理.pptx VIP
- 金蝶云星空 V8.1产品培训_财务_应付款管理.pptx VIP
- 《慢性肾脏病相关瘙痒管理中国专家共识(2025年版)》解读PPT课件.pptx VIP
原创力文档


文档评论(0)