浅析基因表达数据预处理方法.docVIP

下载本文档

99
0
约3.24千字
约 7页
2018-09-05 发布于福建
举报
版权申诉

浅析基因表达数据预处理方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅析基因表达数据预处理方法

浅析基因表达数据预处理方法　　摘要本文介绍了几种常见的基因表达数据预处理方法，并对这些方法进行对比，阐明了各种方法在不同的环境下的应用优势。　　关键词数据挖掘预处理方法基因表达数据　　中图分类号：O17文献标识码：A 　　　　Pretreatment Method of the Gene Expression Data 　　WANG Xiuzhu 　　(Computer Science and Technology, Southwest University of Science and Technology, Mianyang, Sichuan 621010) 　　AbstractThis paper introduces several common gene expression data pretreatment method, and compared those methods, elucidatedapplication advantages of different methods in different environment. 　　Key wordsdata mining; pretreatment methods; gene expression data 　　　　随着人类基因组计划对24对染色体全部基因测序工作的完成，人类对基因的研究将进入全新的发展阶段，而它的重点也将落在对基因表达数据的分析上。面对数以千兆计的基因表达数据记录，数据挖掘成了首当其冲的、强有力的分析工具。选择合适的数据挖掘算法，是基因表达数据知识发现的关键。一般基因表达数据都会存在诸如数据完整性、数据的冗余性、属性间的相关性等问题而不能直接满足挖掘算法的要求。本文首先提出几种常用的基因表达数据预处理方法，随后会对这些方法进行论述和比较，以阐明在不同环境下各种预处理方法的应用优势。　　数据预处理是从大量的数据属性中提取出一些对目标输出有重要影响的属性，即降低原始数据的维数，从而达到改善实例数据质量和提高数据挖掘速度的目的。常见的基因表达数据预处理方法有以下几类。　　1 基于粗糙集理论的约简方法　　20世纪80年代初，波兰的Pawlak针对G.Frege的边界线区域思想提出了粗糙集理论，粗糙集理论的主要研究内容有知识约简、离散化问题和不完全知识的补齐等，它在一定程度上很好地解决了传统数据挖掘中存在的超大数据、不确定性数据、噪音数据、空值和冗余数据等问题。① 　　粗糙集理论的基本思想是：用数据集的等价关系，这种关系可以是某个属性，也可以是某几个属性的组合，对此数据集进行划分，从而得到不同的基本类，在这些基本类的基础上进一步求得最小约简集，以达到降维的目的。　　粗糙集理论的优点是：无需提供额外的先验信息就可将问题的论域进行划分，无需相关领域专家的监督就可独立完成。能有效地去除基因表达数据库中的冗余数据、噪音数据和空数据，并对数据进行有效的降维。缺点是：只能处理离散型数据。因此，如果基因表达数据库中的数据是连续型的，则首先要对其进行离散化处理后才能运用粗糙集理论来进行后续处理。　　2 基于概念树的数据浓缩方法　　在基因表达数据库中，许多属性都是可以进行归类的，各属性值依据抽象程度可以构成一个层次结构，这种层次结构通常称为概念树。它依据抽象程度将属性按照一般到特殊的顺序排列，并用这种层次结构体现出来。这种方法其实是几组合并的处理过程，用这种方法从基因表达数据库中发现规则知识的核心是执行基本的和面向各属性的归纳。② 　　基于概念树的数据浓缩法的基本思想是：（1）用概念树中的父概念去替代下面同性的、较具体的属性值。（2）合并知识基表中出现的相同元组，并计算由这些相同元组所构成的宏元组所覆盖的元组数，如果元组数大于设定的阀值，则用概念树中更一般的父概念去替代。（3）得到覆盖面更广、数量更少的宏元组以达到降维的目的。（4）将最终结果进行归纳并转换成逻辑规则。　　基于概念树的数据浓缩法是基于监督的方法，它的降维思想主要是根据经验和需要制定出相应的剪枝阈值，以对噪声数据进行有效剪除。这种概念泛化处理的手段，能使处理后的基因表达数据库以不同层次和汇聚密度展现出来，为后续数据挖掘阶段能更好地挖掘出不同层次属性值间的关系做出了铺垫。　　3 主成分分析法　　常见的基于统计分析的属性选取方法有主成分分析、逐步回归分析、公共因素模型分析等。它们都是旨在用尽可能少的特征去描述高维的原始基因表达数据库，从而达到降维的目的。其中最有代表性，应用得最广的就属主成分分析。③ 　　主成分分析的基本思想是：将多个变量通过线性变换的方式选出较少的重要变量的一种多元统计分析方法,它是在数据信息丢失最少的原则