医学数据采集与准备完整PPT.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

医学数据采集与准备;主要内容;2.1数据的采集与组织;2.1.1数据的采集、存储和管理;通常,数据仓库系统应该包含下列程序:

直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层。

对数据的改变没有进行日志记载

一个数据仓库的大小一般都是在100GB以上

在对数据进行预处理之前,重点是如何发现数据中的异常现象

MinLow(i.

如果A和B是数值性的数据特征属性,可计算A和B的相关系数。

说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层。

利用相关性分析,可以揭示数据冗余。

对数归一法(logarithmicnormalization):在这种简单的归一化算法中,原始的对数值取代原数值,构成了数据的变换值。

例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入

以全体数据中同类记录的相同属性的均值取代某个记录的该属性值。

如果A和B是分类型(离散)的数据特征属性,则可以计算卡方试验来分析相关性。

相关系数的值可介于-1和+1之间。

一个数据仓库的大小一般都是在100GB以上

因为误解而没有被输入的数据

多元回归:线性回归的扩充

数据仓库以维的形式对数据进行组织,时间维是数据仓库中很重要的一个维度。;数据库技术的演化(2);;数据仓库;数据仓库的定义;数据仓库的定义;数据仓库的定义;数据仓库的定义;数据仓库的定义;数据仓库的定义;数据仓库的定义;数据仓库的组成;2.1.2数据的组织;2.2数据预处理;数据预处理的目的;数据预处理的目的;数据的分布特性;数据的分布特性;;2.2.3数据清洗;为什么要预处理数据?;数据质量的多维度量;1.数据缺失;1.数据缺失;处理方法(1);处理方法(2);处理方法(3);处理方法(4);2.数据噪声;2.数据噪声;如何处理噪声数据;数据平滑的分箱方法;回归平滑;回归;聚类平滑;聚类平滑;聚类;2.2.4数据整合;2.2.4数据整合;简单随机选择n个样本,回放:过程同上,只是元组被抽取后,将被回放,可能再次被抽取

面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等)

内在的、上下文的、表象的

将原始数据按其值的大小顺序排列,处于中间一位的数值或处于中间两位数值的均值。

例如,某位非糖尿病患者的受试者血糖化验值丢失,可以根据其他各项记录的相关数据,以回归分析或决策树等方法推断该缺失数据最可能发生的值。

聚集:汇总,数据立方体的构建

实体识别问题:匹配来自不同数据源的现实世界的实体,比如:A.

不同值个数最多的属性将被放在概念分层的最底层。

数据清洗主要是处理原始数据中的缺失、不一致和受噪声干扰等现象。

数据的取值范围对某些数据挖掘算法的性能也会有所影响。

直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层。

直方图分析(histogram);2.2.4数据整合;处理数据集成中的冗余数据;数据值冲突;2.2.5数据变换;为什么要进行数据变换?;数据转换;离散化;离散化和概念分层;数据数值的离散化和概念分层生成;通过自然划分分段;自然划分的3-4-5规则;3-4-5规则——例子;分类数据的概念分层生成;属性集的规格;数据变换 ;数据变换——规范化;数据变换——规范化;2.2.6数据精简;样本数据选择;选样——SRS;选样——聚类/分层选样;数据压缩;数值归约;直方图;聚类;感谢观看

文档评论(0)

192****8848 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档