常见的郭秀花--医学大数据分析策略与数据挖掘.ppt

下载文档 降价啦

25
0
约5.07千字
约 41页
2018-11-05 发布于山东
举报
版权申诉
保障服务

常见的郭秀花--医学大数据分析策略与数据挖掘.ppt

1、本文档共41页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

常见的郭秀花--医学大数据分析策略与数据挖掘

* 数据挖掘软件及其实现方法 * Your text R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。 R是一个有着统计分析功能及强大作图功能的软件系统，是由奥克兰大学统计学系的Ross Ihaka和Robert Gentleman共同创立。在R的官方网址上，选择网站镜像/mirrors.html 2 R软件 3 1 R软件 R编辑器：编辑程序选择运行 R Console：运行过程提示错误等 / * 支持向量机R语言实现 library(kernlab) /加载支持向量机程序包/ setwd(“D:\\ku”) /设置当前数据库路径/ datayuce=read.csv(“a.csv”,header=T)/导入预测集数据/ dataxunlian=read.csv(“b.csv”,header=T) )/导入训练集数据/ svmModel - ksvm(as.matrix(dataxunlian[1:5]), as.factor(dataxunlian$x), type=“C-svc”,kernel=“rbfdot”,C=10,cross=4) )/核函数选择/ pre=predict(svmModel,datayuce[1:5]) write.csv(data.frame(pre,class=datayuce$x, zu=datayuce$no),file=result.csv) )/输出结果到result.csv / table(pre,class=datayuce$x) /结果整理/ * 支持向量机 * WEKA（Waikato Environment for Knowledge Analysis） * WEKA作为一个公开的数据挖掘工作平台，用于非商业目的的研究行为，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。 * STATA该软件是美国Computer Resource Center研制的统计软件，目前的12、13版本就可以实现数据挖掘。 SAS for windows：国际权威的统计软件，有专门的数据挖掘模块。 SPSS for Windows ：该软件是一个统计专用软件，界面很友好。在19.0之前的版本需要加专门的Clementine模块；19.0之后版本因有modeler，可直接做。 * 基于大数据进行数据挖掘，采用大型服务器可以提高运行速度。 * * * * * 数据：数据库是目前组织和存储数据的有效方法之一，但面对日益膨胀的数据，数据库查询技表现出它的局限性。信息：对人们有帮助的数据。面对计算机中的海量数据，缺乏获取有效信息的手段；是对客观世界各种事物的特征的反映，是关于客观事实的可通讯的知识知识：是一种概念、规则、模式和规律等，不像数据或信息那么具体，但是人们一直不懈追求的目标。 (1)数据源必须是真实的、大量的、含噪声的； (2)发现的是用户感兴趣而事先却不知道的知识； (3)发现的知识要可接受、可理解、可运用。 * * 与传统的统计方法相比，数据挖掘对于数据的要求更为宽泛。不需要满足数据之间的独立性等条件。对于高维数据也能取得比较好的分类效果。 * * * 医学大数据分析策略与数据挖掘讲座人：郭秀花博士生导师 guoxiuh@ 单位：首都医科大学日期：2014年11月22日 * * 提纲中心概况医学大数据及其分析策略 1 中心概况 2 数据挖掘软件及其实现方法 3 数据挖掘方法简介及其应用 * 医学大数据及其分析策略大数据（Big Data）数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。 * 模拟式存量数字式存量 2000年以前大部分数据是analog data （模拟式数据）以书、报纸、录像带等存储。特点：数据量较小。 2000年以后digital data （数字式数据）大大增加以CD、DVD、硬盘等存储。特点：数据量巨大。 2000年 Source: Researchers at the University of Southern California took four years -- 1986, 1993, 2000 and 2007 -- and extrapolated numbers from roughly 1,100 sources of information. Credit: Todd Lindeman and Brian Vastag/ The Wa