计算生物学期末作业——张伟伟探讨.docVIP

下载本文档

2
0
约1.02万字
约 10页
2016-08-06 发布于湖北
举报
版权申诉

计算生物学期末作业——张伟伟探讨.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

利用DNA甲基化450K array数据估计肿瘤细胞纯度与差异甲基化分析 ——《计算生物学编程语言》考试题目 DNA甲基化是一类重要的表观遗传修饰，它可以通过控制基因表达在多种细胞过程中起作用，比如胚胎干细胞发育 [1]，基因组印迹化 [2, 3]，X染色体失活 [4] 等等。其异常表达与包括癌症在内的多种人类疾病密切相关 [5-12]。在单核苷酸水平上得到DNA甲基化水平的试验方法一般有两类：一类是基于重亚硫酸盐处理的方法，即“全基因组重亚硫酸盐测序”（WGBS）和“约化表示重亚硫酸盐测序”（RRBS）。这两类方法都是在高通量测序之前用重亚硫酸盐对DNA序列进行处理，没有被甲基化的胞嘧啶（cytosine）被转化为了尿嘧啶（uracil），而甲基化的胞嘧啶保持不变。因此，通过回帖到基因组上并与参考基因组相比较，就可以得知相应位置上的胞嘧啶是否被甲基化。另一类获取DNA甲基化的方法是传统的450K 芯片办法，它可检测人全基因组近450,000个甲基化位点，具有单碱基的分辨率。全面覆盖了96%的CpG岛，并根据需求加入了CpG岛以外的CpG位点、人类干细胞非CpG甲基化位点、正常组织与肿瘤（多种癌症）组织差异甲基化位点、编码区以外的CpG岛、miRNA启动子区域和GWAS疾病相关区域的位点。在癌症表观遗传分析当中，一个很重要的任务就是获取肿瘤细胞与正常细胞相比发生甲基化差异的位置，即差异甲基化分析。实验上，我们一般采取的方式是在切除肿瘤组织的同时，再切除一部分癌旁正常组织一并测序，然后进行比较。然而，由于手术分辨率的问题，切出的肿瘤组织都或多或少地混有一部分正常细胞，比如TCGA的所有肿瘤样本，正常细胞的含量一般都在30%到70%之间。因此，如果我们不加以处理，而直接把它跟正常组织的甲基化谱相比，势必会出现误差。此外，还有大部分样本是没有正常癌旁组织的，比如脑癌（GBM），这种情况下我们只能把它跟有正常组织的样本相比，这样，一些个体特异性的差异甲基化区域就检测不到了。为了克服上述困难，我们曾利用极大似然估计和EM算法对WGBS和RRBS数据进行了分解，得到的肿瘤细胞纯度和差异甲基化区域（DMR）跟用“正常-肿瘤”组织相比得到的结果类似，这部分工作发表在8月份的Genome Biology上 [13]. 然而与WGBS和RRBS数据相比，450K的数据获取更便宜、使用更为广泛，因此，如果我们能提出一种类似的方法估计450K的tumor purity和DMR，无论在理论上还是临床实际上都会有更为重要的意义。当然，思路也不能局限在 GB的paper上，如果是一样的话，我也就顺手做完了。对于这个问题我有如下初步的思路供大家参考： 1）对于成对样本，即正常和肿瘤组织都有的样本，我们可以先找到正常和肿瘤组织中有明显差异的甲基化位点，对于tumor purity的估计，这样的位点才是有信息的。对于纯肿瘤细胞，如果我们假设其在每个CpG位点的甲基化水平或者是0，或者是1，那么很容易就可以利用肿瘤组织单个CpG位点的甲基化水平来估计肿瘤细胞的纯度。但很显然，由于测量误差等等因素，利用单个CpG位点来预测肿瘤细胞纯度肯定不会太准确，这里我们可以用所有的有信息的位点一起来估计。TCGA肺腺癌（LUAD）有利用ABSOLUTE软件估计出来的肿瘤细胞纯度，你可以把你估计出来的结果跟ABSOLUTE的结果比较一下，看看是否有很强的相关性？ 2）对于没有癌旁正常组织的肿瘤样本，我们只能退而求其次只利用肿瘤组织的450K数据来估计其tumor purity. 在这里，我们还是假设纯的正常细胞和肿瘤细胞的甲基化水平只取0（全部不甲基化）或者1（全部甲基化）。这样，如果我们知道了肿瘤和正常细胞各自的甲基化水平，那么根据肿瘤样本的450K数据（肿瘤细胞核正常细胞的混合）就可以推算出tumor purity了。但这个信息我们是不知道的，那该怎么办呢？对了，我们可以把这个因素设为隐藏变量，用EM算法就可以解决啦。但即使你成功了，还是有一个问题没有解决，即“相信息”会丢失：你不知道与正常细胞相比，肿瘤细胞在这个位置上是高甲基化了，还是低甲基化了？这个问题我们可以预先分析下TCGA的成对数据，看看是否有一些区域是在所有样本里面都是稳定地“高甲基化”或者“低甲基化”的位点（我想一定会有这样的位点的，而且这些位点应该与肿瘤发生密切相关！）。把这个方法估计出来的结果与ABSOLUTE的结果比较一下，看看相关性有多大？ 3）如果再考虑到肿瘤细胞容易发生拷贝数的变化呢？这个模型应该怎么改进？作业要求：1. 把分析过程和计算结果尽可能详细地写出来；2. 把计算的程序附上（python做这个是最合适的）；3. 多画图来展示你的中间结果；4. 放假之前把程序和