医学数据挖掘与大数据处理讲述.pptx

  1. 1、本文档共97页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
医学数据挖掘与大数据处理讲述

第七章 医学数据挖掘与大数据处理 本章主要内容 数据挖掘与数据仓库 常用的数据挖掘方法 大数据概念 大数据处理方法 医疗大数据应用 阅读书目 崔雷.医学数据挖掘. 高等教育出版社 涂子佩. 大数据. 广西师范大学出版社 赵刚.大数据技术与应用实践指南. 电子工业出版社 李雄飞等. 数据挖掘与知识发现(第2版).高等教育出版社 1. 数据挖掘与数据仓库 数据、信息、知识? “1.85”是个数字 奥巴马身高1.85 大多数黑人男性的升高超过1.85 数据、信息和知识的区别与联系 知识 数据 数据价值 数据规模 信息 纽约警察-杰克.梅普尔的传奇 数据驱动管理 除了上帝,任何人都要用数据说话。-爱德华.戴明 图灵奖、诺经济学奖、美心理学会终身成就奖 人类理性是有限的,所有决策都是基于有限理性的结果,如果能利用存储在计算机里的信息来辅助决策,人类理性的范围将扩大,决策的质量就能提高。 决策支持—商务智能 2017-3-25 8 数据挖掘的发展动力        ---需要是发明之母 数据爆炸但知识贫乏 全球每秒290万份电子邮件、每秒亚马逊产生72.9笔订单,每分钟20个小时视屏上传到YouTube,Google每天处理24PB数据;淘宝有6亿注册会员,在线商品超过9亿,每天交易超过数千亿。 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。 这些数据当中大量有用的知识被淹没其中。 2017-3-25 9 解决方法-数据仓库和数据挖掘 数据仓库(Data Warehouse)和在线分析处理(OLAP) 在大量的数据中挖掘感兴趣的知识(规则、规律、模式、约束) 支持数据挖掘技术的基础 - - 海量数据搜集 - - 强大的多处理器计算机 - - 数据挖掘算法 数据仓库 数据仓库是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理中的决策支持。 数据仓库体系结构 数据仓库体系结构 数据源:通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。 数据的存储与管理:决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。 数据仓库体系结构 OLAP(On Line Analysis Processing) 对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。 ROLAP(关系型在线分析处理),基本数据和聚合数据均存放在RDBMS之中; MOLAP(多维在线分析处理)和HOLAP(混合型线上分析处理),基本数据和聚合数据均存放于多维数据库中; HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。 数据仓库体系结构 前端工具 各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。 数据分析工具主要针对OLAP服务器 报表工具、数据挖掘工具主要针对数据仓库。 数据仓库四大特点 数据仓库是面向主题的。 数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 数据仓库是集成的。 数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,转换统一与综合之后才能进入数据仓库; 数据仓库特点 数据仓库是随时间而变化的。 不断跟踪事务处理系统中,数据仓库会把业务系统数据库中变化数据追加进去。传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。 数据仓库是稳定的(非易失性的)。 其数据以物理分离的方式存储,决策人员只进行数据查询,而不进行数据修改。数据仓库只需要两类操作:数据的初始化装入和数据访问 多维数据模型 数据立方体 以两维或多维来描述或分类数据,维类似关系数据库的属性或字段。三维立方体呈现。 维:是人们观察事物、计算数据的特定角度。例如,死因监测,“地区”、“时间”、“性别”、“死亡原因”等构成四维数据模型。 事实:多维立方体是面向主题的,主题有事实来表示。例如主题死因分析,则死亡人数就是事实。 数据立方体结构 下钻:一个维度可以下钻细分 上卷:汇总 2017-3-25 21 数据挖掘:数据中搜索知识(模式) 知识 2017-3-25 重庆医科大学现教中心 王体春 22 进化阶段 商业

您可能关注的文档

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档