- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物医学数据挖掘 参考文献 1、生物医学数据挖掘(第二版) 上海科学技术出版社 2、生物医学数据分析及其MATLAB实现 北京大学出版社 3、生物信息学 科学出版社 第一章 概论 1.1 什么是数据挖掘 1.1.1数据、信息和知识 数据是对客观事物特征状态的记录;数据也是信息及知识的载体。 如何从大量的数据中发现和找出以隐含方式存在于其中、有意义的信息和知识。 1.1.2 数据挖掘的定义 数据挖掘是对大量观察到的数据进行分析,以便从中发现事先未知的联系和规律的过程。 目的:让数据拥有者得到非常清晰而有用的结果(即信息和知识) 生物医学数据来源 人体生理信息的种类 1.2数据挖掘的应用及方法 1.2.1应用 1.(分类应用实例)乳腺疾病诊断 2.(回归应用实例)子宫颈癌患者存活率及其受各危险因子影响模型 3.(时间序列分析应用实例)胰岛素依赖性糖尿病变化趋势,变化周期 4.(预测应用实例)肾透析提高患者生存率 5.(聚类应用实例)流行病学因素对肺癌患者临床医学状况的影响 6.(关联规则分析应用实例)患者住院期间感染影响患者健康 7.(序列发现,序列分析应用实例)基因比较 1.2.2方法 从学习对象和过程的角度看分为有指导学习和无指导学习 有指导学习指学习样本的归属都是已知的,确定的。例如分类 无指导学习指学习样本的归属事先并不确定或已知。例如聚类 从学习方法的角度看,有多种数学工具可用:回归分析学统计学方法,人工神经网络,决策树等 根据待解决问题的类型、要求,以及数据本身的特点,确定最佳方法。 1.3生物医学数据挖掘的特殊性 1.3.1医学数据的特殊性 1.原始数据数量大,且呈多样性或异质性 2.有时很难以数学方式来表达其结构及特征 3.医学数据经常需要更新 4.采集医学数据很难完全避免噪声干扰 5.生物医学数据难免会发生丢失 6.医学数据可能包含冗余的、没有意义的或不一致的属性 1.3.2伦理、法律和社会等方面对隐私敏感的问题 1.3.3医学的特殊性质 1.4数据挖掘的评价 1.4.1样本的组织 将原始样本数据组织成学习样本集和测试样本集的原则:尽可能使学习样本集和测试样本集中的样本分布和样本总体的分布一致,尽可能使学习样本集有足够多的样本。常用方法: 1.随机分组法:将已知数据集合随机的分为互不重叠的学习样本集和测试样本集。 2.交叉验证法:将原已知数据集随机的分为K组,依次以其中的一组数据为测试样本,而以其他数据为学习样本进行训练和测试。 3.留一法:是交叉验证法中当K等于原始样本数据量M时的特例。 1.4.2有指导学习的评价(分类) 1.4.3无指导学习的评价 无指导学习数据挖掘目标往往不清晰,但有评价指导学习数据挖掘的一些原理,可沿用于评价无指导学习的性能。例如:聚类。 开源数据挖掘工具(平台) Weka R Tanagra YALE KNIME Orange GGobi 1.5数据挖掘的过程 数据挖掘软件 Intelligent Miner(IBM) Clementine(SPSS) Enterprise Miner(SAS) Microsoft SQL Server2005(Microsoft) 1.明确分析目的 2.组织及预处理数据 3.探索性分析数据 4.实施数据挖掘方法,并以此分析数据 5.评价和比较各种方法的性能,确定最终的结果 6.解释数据挖掘结果及其在本专业领域中的应用 Weka 统计分析方面较弱,在机器学习方面要强得多 R 用于统计分析和图形化的计算机语言及分析工具,支持系列分析技术,包括统计检验,预测建模,数据可视化 Tanagra 使用图形界面的数据挖掘软件,强项是统计分析,提供了众多的有参和无参的检验方法,但缺乏高级的可视化能力 YALE 提供图形化界面,提供了大量的运算符,包括数据处理,变换,探索,建模,评估等等环节。 KNIME 采用类似数据流的方式来建立分析挖掘过程 Orange 提供大量的可视化方法,可对数据和模型进行多种图形化演示,并能智能搜索合适的可视化形式,支持对数据的交互式探索,弱项在于传统统计分析能力不强,不支持统计检验,报表能力也有限。 GGobi 用于交互式可视化的开源软件 第二章 医学数据采集与准备 2.1数据的采集与组织 2.1.1数据的采集、存储与管理 数据库系统(DBMS)是存储,组织和管理数据的有效工具,由一组含有内部相关数据的数据文件和一组管理数据的软件程序组成,有时也简称为数据库(DB)。 数据仓库(DW)是一个面向特定研究目的、集成来自各个不同数据库的数据并相对稳定的数据集合,它是数据挖掘直接操作和处理的对象。 2.1.2数据的组织 1.数据的结构 2.数据的类型 数值型:由有序数字构成的
文档评论(0)