常见的郭秀花--医学大数据分析策略与数据挖掘.ppt

常见的郭秀花--医学大数据分析策略与数据挖掘.ppt

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
常见的郭秀花--医学大数据分析策略与数据挖掘

* 数据挖掘软件及其实现方法 * Your text R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。 R是一个有着统计分析功能及强大作图功能的软件系统,是由奥克兰大学统计学系的Ross Ihaka和Robert Gentleman共同创立。 在R的官方网址上,选择网站镜像/mirrors.html 2 R软件 3 1 R软件 R编辑器: 编辑程序 选择运行 R Console: 运行过程 提示错误等 / * 支持向量机R语言实现 library(kernlab) /加载支持向量机程序包/ setwd(“D:\\ku”) /设置当前数据库路径/ datayuce=read.csv(“a.csv”,header=T)/导入预测集数据/ dataxunlian=read.csv(“b.csv”,header=T) )/导入训练集数据/ svmModel - ksvm(as.matrix(dataxunlian[1:5]), as.factor(dataxunlian$x), type=“C-svc”,kernel=“rbfdot”,C=10,cross=4) )/核函数选择/ pre=predict(svmModel,datayuce[1:5]) write.csv(data.frame(pre,class=datayuce$x, zu=datayuce$no),file=result.csv) )/输出结果到result.csv / table(pre,class=datayuce$x) /结果整理/ * 支持向量机 * WEKA(Waikato Environment for Knowledge Analysis) * WEKA作为一个公开的数据挖掘工作平台,用于非商业目的的研究行为,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。 * STATA该软件是美国Computer Resource Center研制的统计软件,目前的12、13版本就可以实现数据挖掘。 SAS for windows:国际权威的统计软件,有专门的数据挖掘模块。 SPSS for Windows :该软件是一个统计专用软件,界面很友好。在19.0之前的版本需要加专门的Clementine模块;19.0之后版本因有modeler,可直接做。 * 基于大数据进行数据挖掘,采用大型服务器可以提高运行速度。 * * * * * 数据:数据库是目前组织和存储数据的有效方法之一,但面对日益膨胀的数据,数据库查询技表现出它的局限性。 信息:对人们有帮助的数据。面对计算机中的海量数据,缺乏获取有效信息的手段;是对客观世界各种事物的特征的反映,是关于客观事实的可通讯的知识 知识:是一种概念、规则、模式和规律等,不像数据或信息那么具体,但是人们一直不懈追求的目标。 (1)数据源必须是真实的、大量的、含噪声的; (2)发现的是用户感兴趣而事先却不知道的知识; (3)发现的知识要可接受、可理解、可运用。 * * 与传统的统计方法相比,数据挖掘对于数据的要求更为宽泛。不需要满足数据之间的独立性等条件。 对于高维数据也能取得比较好的分类效果。 * * * 医学大数据分析策略与数据挖掘 讲座人:郭秀花 博士生导师 guoxiuh@ 单 位:首都医科大学 日 期:2014年11月22日 * * 提纲 中心概况 医学大数据及其分析策略 1 中心概况 2 数据挖掘软件及其实现方法 3 数据挖掘方法简介及其应用 * 医学大数据及其分析策略 大数据(Big Data) 数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。 * 模拟式存量 数字式存量 2000年以前大部分数据是analog data (模拟式数据) 以书、报纸、录像带等存储。特点:数据量较小。 2000年以后digital data (数字式数据)大大增加 以CD、DVD、硬盘等存储。特点:数据量巨大。 2000年 Source: Researchers at the University of Southern California took four years -- 1986, 1993, 2000 and 2007 -- and extrapolated numbers from roughly 1,100 sources of information. Credit: Todd Lindeman and Brian Vastag/ The Wa

文档评论(0)

tianebandeyazi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档