- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因芯片数据分析中的标准化算法和聚类算法
北京大学生命科学院 生物信息专业 王向峰 学号
摘要:
基因芯片技术已经广泛的应用于各种模式生物的功能基因组的研究中,应用芯片技术可以高
效,高通量的检测基因表达行为。芯片数据分析中的标准化主要分为芯片内标准化和芯片间
标准化,芯片内标准化根据目的不同可分为消除染色偏差的 Lowess Normalization ,消除点
样针头引起的空间差异的 Print-tip Normalization 。常用的芯片间标准化有 Quantile
Normalization ,Global Normalization 。芯片数据分析中常见的聚类算法有分层聚类
(Hierarchical clustering)、K 均值聚类(K-means clustering)、自组织图谱 SOM (self organizing
map) 、PCA (principle component analysis)等等。所有的聚类方法归结为有监督的学习和无监
督的学习两种方法。
第一部分 基因芯片的数据标准化(Normalization)
对基因芯片数据的标准化处理,主要目的是消除由于实验技术所导致的表达量(Intensity)
的变化,并且使各个样本(sample)和平行实验的数据处于相同的水平,从而使我们可以得到
具有生物学意义的基因表达量的变化。标准化的方法根据芯片的种类、数据处理的阶段和目
的不同而有所差异。这里主要讨论一下双荧光染色(Red and Green Chip)的 cDNA 微列阵
(cDNA microarray)的标准化方法。
一、实验数据的预处理(data transformation )
双色 cDNA 芯片(two-color cDNA microarray),指对参照基因(reference gene)和样本基
因(sample gene)标上绿色和红色荧光标记。参照基因的制备主要是提取不同组织的不同时期
的细胞进行培养(Cultured Cell),以保证绝大部分的基因可以表达。样本基因是根据试验设
计的目的从不同组织,不同发育阶段,不同条件下培养的细胞中提取的 cDNA 样本。通过
样本基因对参照基因的比值,而判断不同条件下的基因表达量的变化。
扫描仪对基因芯片的图像进行扫描,根据每个点的光密度值尝试相对应的绝对表达量
(intensity) 。然后图像分析软件通过芯片的背景噪音以及杂交点的光密度分析,对每个点的
intensity 校准,然后取样本基因和参照基因的比值(R/G ratio ),作为每个样本基因的相对表
达量(relative intensity) 。选择相对表达量,可以在一定程度上减少芯片之间,荧光染色,扫
描所产生的系统偏差。 然后对比值取对数,log 1 0 ,选择以 2 为底的对数方便于对
2
基因表达量变化的研究,比如R/G=1 ,则log 1 0 ,即认为表达量没有发生变化,当R/G=2
2
或者,R/G=0.5 ,则 log 值为 1 或 –1 ,这是可以认为表达量都发生两倍的变化,只是一个是
受到诱导的正调控,另一个受到抑制的负调控。
以下的数据处理都是对log2 R / G ratio 的形式进行分析。
二、标准化(normalization of Microarray)
1、数据过滤(data filtering)
通过图像扫描软件,将每个杂交点的光强度转化为表达量时,会产生负的数据值或者 0,
这主要是软件的算法对背景噪音处理时所产生的。由于负数和零是不能对数化的,所以过滤
掉这些脏数据是非常必要的。忽略这些点的信息并不会对整体的分析产生影响,因为这些极
弱的信号不足以为基因表达的差异提供证据。
2 、MA plot
MA plot 作图是用来观察芯片数据的分布情况,其中:
M log2 R / G
A log2 R =×G
以M (log ratio
文档评论(0)