第二章 医学数据采集与准备.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 医学数据采集与准备 主要内容 2.1 数据的采集与准备 2.2 数据预处理 2.1数据的采集与组织 2.1.1数据的采集、存储和管理 2.1.2数据的组织 2.1.1 数据的采集、存储和管理 作用:将分散的、相互无关的、缺乏良好组织结构的海量数据加以收集并组织成结构化的数据,是数据挖掘的首要工作,也是必不可少的基础。 数据库技术的演化 (1) 1960s和以前: 文件系统 1970s: 层次数据库和网状数据库 1980s早期: 关系数据模型, 关系数据库管理系统(RDBMS)的实现 数据库技术的演化 (2) 1980s晚期: 各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.) 面向应用的数据库系统 (空间数据库,时序数据库,多媒体数据库等等) 1990s: 数据挖掘, 数据仓库, 多媒体数据库和网络数据库 2000s 流数据管理和挖掘 基于各种应用的数据挖掘 XML数据库和整合的信息系统 数据库系统(database management system,DBMS)是存储、组织和管理数据的有效工具,由一组含有内部相关数据的数据文件和一组管理数据的软件程序组成,有时也简称为数据库(database,DB) 数据库管理系统除了具有存储、组织、操作数据的功能外,通常还具有一些常用的检索和统计计算功能。 数据仓库 数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。 此定义由最为权威的、被称为“数据仓库之父”的William H. Inmon 先生给出。 数据仓库的定义 面向主题的 是相对于传统数据库的面向应用而言的。所谓面向应用,指的是系统实现过程中主要围绕着一些应用或功能。而面向主题则考虑一个个的问题域,对问题域涉及到的数据和分析数据所采用的功能给予同样的重视。 典型的主题领域 顾客、产品、事务或活动、保险单、索赔和账目。 数据仓库的定义 集成的 数据仓库中的数据来自各个不同的数据源(操作数据库)。由于历史的原因,各操作数据库的组织结构往往是不同的,在这些异构数据输入到数据仓库之前,必须经历一个集成过程。 数据仓库的定义 集成的 最重要的特点。应用问题的设计人员制定出不同的设计决策,且表示方法不同。例如编码、命名习惯、实际属性和属性度量等方面不一致。 数据进入数据仓库时,需要消除各种不一致性。例如,数据仓库中顾客“性别”的编码,可采用“男/女”或“m/f”,采用哪种方式并不重要,重要的是在数据仓库中应该统一编码。如果应用数据编码为“X/Y”,则进入数据仓库时需要进行转换。 此外,对所有应用所涉及的问题都要考虑一致性。例如命名习惯、键码结构、属性度量以及数据特点等。 数据仓库的定义 与时间相关的 数据仓库以维的形式对数据进行组织,时间维是数据仓库中很重要的一个维度。并且数据仓库中的数据时间跨度大,从几年甚至到几十年,称为历史数据。 数据仓库的定义 数据仓库中数据随时间变化的特性表现在: 数据仓库中的数据时间期限要远远长于操作型数据库中的数据时间期限。操作型数据库的时间期限一般是60~90天,而数据仓库中数据的时间期限通常是5~10年。 操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有效的,同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。 操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。而数据仓库的键码结构总是包含某一时间元素。 数据仓库的定义 不可修改的 面向应用的事务数据库需要对数据进行频繁的插入、更新操作,而对于数据仓库中数据的操作仅限于数据的初始导入和记录查询。 操作型数据是一次访问和处理一个记录,可以对操作型数据库中的数据进行更新。但数据仓库中的数据则不同,通常是一起载入与访问的,在数据仓库环境中并不进行一般意义上的数据更新。 数据仓库的定义 数据仓库是决策支持系统(Decision Support System, DSS,DSS)的基础。 在数据仓库中只有单一集成的数据源,并且数据是可访问的。所以与传统数据库相比,在数据仓库环境中DSS分析员的工作将较为容易。 数据仓库的组成 一个数据仓库的大小一般都是在100GB以上 通常,数据仓库系统应该包含下列程序: (1)抽取数据与加载数据 (2)整理并转换数据(采用一种数据仓库适用的数据格式) (3)备份与备存数据 (4)管理所有查询(即将查询导向适当的数据源 ) 2.1.2 数据的组织 数据的结构 在关系型数据库中,数据一般均以平面文件的形式存储,数据的结构类似于表格。 数据的类型 数值型 分类型

文档评论(0)

xiexie2012 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档