高通量测序(NGS)数据分析中的质控.docx

下载文档

462
0
约7.86千字
约 17页
2019-01-25 发布于安徽
举报
版权申诉
保障服务

高通量测序(NGS)数据分析中的质控.docx

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

高通量测序错误总结一、生信分析部分 1）Q20/Q30 碱基质量分数与错误率是衡量测序质量的重要指标，质量值越高代表碱基被测错的概率越小。Q30代表碱基的正确判别率是99.9%，错误率为0.1%。同时我们也可以理解为1000个碱基里有1个碱基是错误的。Q20代表该位点碱基的正确判别率是99%，错误率为1%。对于整个数据来说，我们可以认为100个碱基里可能有一个是错误的, 在碱基质量模块报告的坐标图中，背景颜色沿y-轴将坐标图分为3个区：最上面的绿色是碱基质量很好的区，Q值在30以上。中间的橘色是碱基质量在一些分析中可以接受的区，Q值在20-30之间。最下面红色的是碱基质量很差的区。在一些生信分析中，比如以检查差异表达为目的的RNA-seq分析，一般要求碱基质量在Q在Q20以上就可以了。但以检查变异为目的的数据分析中，一般要求碱基质量要在Q30以上。一般来说，测序质量分数的分布有两个特点： 1.测序质量分数会随着测序循环的进行而降低。 2.有时每条序列前几个碱基的位置测序错误率较高，质量值相对较低。在图中这个例子里，左边的数据碱基质量很好，而右边的数据碱基质量就比较差，需要做剪切（trimming），根据生信分析的目的不同，要将质量低于Q20或者低于Q30的碱基剪切掉。 2）序列的平均质量这个是碱基序列平均质量报告图。横坐标为序列平均碱基质量值，纵坐标代表序列数量。通过序列的平均质量报告，我们可以查看是否存在整条序列所有的碱基质量都普遍过低的情况。一般来说，当绝大部分碱基序列的平均质量值的峰值大于30，可以判断序列质量较好。如这里左边的图，我们可以判断样品里没有显著数量的低质量序列。但如果曲线如右边的图所示，在质量较低的坐标位置出现另外一个或者多个峰，说明测序数据中有一部分序列质量较差，需要过滤掉。 3）GC含量分布这个是GC含量分布报告图。GC含量分布检查是检测每一条序列的GC含量。将样品序列的GC含量和理论的GC含量分布图进行比较，用来检测样品数据是否有污染等问题。理论上，GC含量大致是正态分布，正态分布曲线的峰值对应基因组的GC含量。如果样品的GC含量分布图不是正态分布，如右图出现两个或者多个峰值，表明测序数据里可能有其他来源的DNA序列污染，或者有接头序列的二聚体污染。这种情况下，需要进一步确认这些污染序列的来源，然后将污染清除。 4）序列碱基含量碱基含量模块是统计在序列中的每一个位置，四种不同碱基占总碱基数的比例。它的目的是检测有无AT、GC分离的现象，而这种现象可能是测序或建库的系统误差所带来的，并且会影响后续的生信分析。理论上，在随机的DNA文库中，G和C含量以及A和T含量在每个测序循环上应分别相等，而且整个测序过程稳定不变。所以碱基含量的四条线应该是基本平行的水平线（图A）。而现实中，由于建库PCR扩增时PCR引物的最初几个碱基不能很好地和模板DNA结合，常常会导致测序结果序列开始的大约前10个碱基位置，碱基含量有较大的波动。这种波动存属于技术误差（图B）。如果在整个测序过程中，四条碱基含量线都出现波动，可能是样品库里有过多的接头序列的二聚体（图C，D）。在建库过程中，如果加入的接头序列过量，两个接头序列可能会连在一起，中间没有要测序的插入序列，形成接头序列二聚体。这些二聚体可以利用adapter trimmer 软件去除。 5）过量出现的序列过量序列模块是查看数据是否有污染的另一种方法。如果某个序列的数量占全部序列的0.1%以上，FASTQC就定义该序列为over-represented。这些over-represented序列通常标示着污染序列的存在。这种污染如果是建库测序中的接头序列，fastqc可以检测并标示出可能的来源（possible source）。但如果污染是由于其他来源的DNA，比如其他生物的DNA，FASTQC就没法判断污染序列的来源。这就需要生信分析人员利用其他方法找出污染源。比如将大量出现的序列和NCBI的DNA数据库进行blast，看看污染序列是否来自其他物种。 6）过量出现的Kmer 检查是否有接头序列，还可以查看k-mer含量。如果有些k-mer过量出现，很有可能有序列污染。过量出现的k-mer可能会有三种情况：序列５－端，序列中间，或者序列３－端。５’－端过量出现的k-mer是建库PCR扩增时PCR引物无法和DNA模板很好地结合导致的，是技术误差。出现在中间的k-mer比较少见，可能是接头序列拼接到测序序列中间导致的。3-端出现过量k-mer往往标示着接头序列的污染。 7）接头序列含量对接头序列污染的查看还有一个更直观的模块，就是接头序列含量。这里的两个例子中，左图没有显著的接头序列污染，右图的接头序列污染就比较显著。 8）去除d