线性判别分析和降维方法应用于基因芯片数据分析.pdfVIP

线性判别分析和降维方法应用于基因芯片数据分析.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
线性判别分析和降维方法应用于基因芯片数据分析.pdf

第22卷第1期 甘肃联合大学学报(自然科学版) Vo1.22 No.1 2008年 1月 Journal of Gansu Lianhe University(Natural Sciences) Jan.2008 文章编号:1672—691X(2008)01—0029—06 线性判别分析和降维方法应用于基因芯片数据分析 胡 煜 (广东工贸职业技术学院,广东 广州 510500) 摘 要:主要采用偏最小二乘法和线性判别分析(LDA)有监督分类的方法来对基因芯片(微阵列)数据进行分 析.PCA,PLS是一种提取海量数据有效特征的有效方法,而且可以获得与原来基因芯片数据更为接近的成分 的提取特征的效果.比较PCA降维和PLS降维对LDA统计判别分类的效果.得出的结论可为工业应用提供 科学依据. 关键词:基因芯片数据分析;偏最小二乘法(PLS);主分量分析(PCA);线性判别分析(LDA) 中图分类号:0235 文献标识码:A 一 主成分最能反映数据间的差异.通过合并原来 0 引言 的维数得到更少的维数来表示对象,同时要求新 本文的Prostate基因数据库是样本数为102 的维数必须尽可能地反映原有维数所反映的信 个,基因数为6033个.所以直接对这么庞大的矩 息,它有较少的信息丢失.有助于简化分析和多 阵,使用分类方法来处理基因数据不仅计算量大, 维数据的可视化 ]. 而且效果也并不理想.由于基因数据库一般都比 为了提取数据的性质而把数据降维映射到新 较庞大,在pc机上直接对数据进行处理(分类与 的变量空间上,PCA跟一个数学技术——奇异 聚类)将会遇到两方面的困难,一方面是对计算机 值分解(SVD)关系非常密切,且主分量分析跟奇 内存存储量的海量要求,另一方面是对计算机 异值分解作用在数据的协方差矩阵上是相同的. CPU计算速度的快速要求.一般pc机很难达到 设由N个样本排成一个d×N的矩阵X,即 这些要求.因此,在基因数据处理之前先对其进行 X一(X。,X:,…,X ),样本的总体均值: “瘦身”是很有必要的.在实际操作上,我们一般先 1 一 x . 通过特征选择或者特征提取,得到考察基因的某 一 一 1 个特征子集,然后再使用此子集进行模型比较[】]. X为X的中心化矩阵: 本文基于统计方法的模式识别系统主要由三 X一 (X1一 ,X2一 ,…,XN一 )L . 个部分组成:数据获取和预处理,特征提取与选 总差异矩阵(Total Scatter Matrix)S,: N 择,分类决策.主要工作:比较PCA降维分类, S,一∑(x 一 )(x 一 ) 一藤 . PLS降维分类对 LDA统计判别得出分类的效 一1 果.得出的结论为工业应用提供科学依据. PCA应用于生物基因,目的就是找到一个线性变 换,或者称为投影矩阵wPc ∈ ,将原来d维 1 特征提取

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档