- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
苏洪全等:基于核土分量份的基冈表达系列分析
基于核主分量的基因表达系列分析
苏洪伞,朱义胜
16026)
(大连海事大学信息科学技术学院,大连,l
E·mail:shqlyg@qq.corn
摘要:基冈表达系列分析(Serialanalysisofgene
分布的特性,设计了新的核函数,结合核主分量分析(Kernel
Principle
based
出了基于Poisson模型的KPCA算法(Poisson.Model
的SAGE数据的分析,结果表明,该算法相对于KPCA,能有效的去除冗余数据,降低维数。
关键词:基因表达系列分析,Poisson分布,核函数,核主分量分析
1前言
基因表达决定生命过程中的个体发育控制、细胞分化、形态变化、组织特异性以及细
胞应激反应等一系列分子生物过程。随着基因组测序技术的完善和发展,很多动植物的基
因组全序列信息被成功破译。为分析基因功能,了解细胞的基因表达谱,人们提出了表达
能有限的反映基因的表达水平。
of
基因表达系列分析(Serialanalysisgene
分析全基冈组表达模式的技术,反映了细胞内基因的动态变化,克服了其他技术存在的一
些缺陷。模式识别和聚类分析是分析SAGE数据的基本工具,由于SAGE数据具有维数高、
数量大的特点,为便于计算,需对原始的SAGE数据降维,去除冗余数据,往往采用有监
selection
督筛选(supervised
本文的目的是设计有效的无监督算法对SAGE数据进行特征提取,以供后续的模式识别和
聚类分析使用。
取得了较好的结梨01。
法结合,提出了PMKPCA算法。通过对老鼠视网膜细胞发育时期的SAGE数据分析,与采
降低SAGE数据的维数。
2核函数
2.1SAGE数据的统计特性
设t为k维SAGE数据中第i个标签:
基金项目:国家自然科学基金
苏洪全等:基十核主分量份的基冈表达系列分析
x,=Ix,0),‘(2),…,五(明r (1)
丑(t)为数据集f中标签i相对于9的百分比141。即:
p(誓(f))=P刊只(乃(惆)“‘’^(州 (2)
2.2对SAGE数据PoiSSOR分布参数的估计
考虑由刀个样本组成的集合D={xl,x2,…,x。},对于给定的样本,其产生的概率为:
p(x“x乒=∑P(1,qP(q) (3)
其中先验概率尸(哆)决定其所属类别q,p(xI|I,哆)是条件概率密度,
IlI嘶I,2,…,t)是参数向量。那么联合密度函数为:
p(Dp≥陟Hp(,I) (4)
根据最大似然估计理论,使得该密度达到最大的参数值d就是p的最大似然估计
p)。即d必须满足:
p(DI
i=1∥2一,刀 (5)
∑P(qx乒审扛Inp(』I哆,)=o
对该方程求解,可得参数值的最大似然估计讧。
根据SAGE数据的统计特点,∥=20,因为谚为标签i在所有数据集中的期望和,所
以可得:
参=谚=∑‘(t) (6)
根据最大似然估计理论,可得:
稚)=∑五(,)/∑秒
文档评论(0)