- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高通量测序错误总结
一、生信分析部分
1)Q20/Q30
碱基质量分数与错误率是衡量测序质量的重要指标, 质量值越高代表碱基被测错的
概率越小。 Q30 代表碱基的正确判别率是 99.9% ,错误率为 0.1% 。 同时我们也可以
理解为 1000 个碱基里有 1 个碱基是错误的。Q20 代表该位点碱基的正确判别率是 99% ,
错误率为 1% 。 对于整个数据来说,我们可以认为 100 个碱基里可能有一个是错误的 ,
在碱基质量模块报告的坐标图中,背景颜色沿 y- 轴将坐标图分为 3 个区:最上面的绿
色是碱基质量很好的区, Q 值在 30 以上。中间的橘色是碱基质量在一些分析中可以接
受的区,Q 值在 20-30 之间。最下面红色的是碱基质量很差的区。 在一些生信分析中,
比如以检查差异表达为目的的 RNA-seq 分析,一般要求碱基质量在 Q 在 Q20 以上就
可以了。 但以检查变异为目的的数据分析中,一般要求碱基质量要在 Q30 以上。
一般来说,测序质量分数的分布有两个特点:
测序质量分数会随着测序循环的进行而降低。
有时每条序列前几个碱基的位置测序错误率较高,质量值相对较低。
在图中这个例子里,左边的数据碱基质量很好,而右边的数据碱基质量就比较差,需要
做剪切( trimming ), 根据生信分析的目的不同,要将质量低于 Q20 或者低于 Q30
的碱基剪切掉。
2)序列的平均质量
这个是碱基序列平均质量报告图。横坐标为序列平均碱基质量值,纵坐标代表序列
数量。 通过序列的平均质量报告, 我们可以查看是否存在整条序列所有的碱基质量都普
遍过低的情况。一般来说,当绝大部分碱基序列的平均质量值的峰值大于 30 ,可以判
断序列质量较好。如这里左边的图,我们可以判断样品里没有显著数量的低质量序列。
但如果曲线如右边的图所示, 在质量较低的坐标位置出现另外一个或者多个峰,说明测
序数据中有一部分序列质量较差,需要过滤掉。
3)GC 含量分布
这个是 GC 含量分布报告图。 GC 含量分布检查是检测每一条序列的 GC 含量。将
样品序列的 GC 含量和理论的 GC 含量分布图进行比较,用来检测样品数据是否有污染
等问题。 理论上, GC 含量大致是正态分布, 正态分布曲线的峰值对应基因组的 GC 含
量。 如果样品的 GC 含量分布图不是正态分布,如右图出现两个或者多个峰值,表明测
序数据里可能有其他来源的 DNA 序列污染,或者有接头序列的二聚体污染。这种情况
下,需要进一步确认这些污染序列的来源,然后将污染清除。
4)序列碱基含量
碱基含量模块是统计在序列中的每一个位置, 四种不同碱基占总碱基数的比例。它
的目的是检测有无 AT、GC 分离的现象, 而这种现象可能是测序或建库的系统误差所带
来的,并且会影响后续的生信分析。 理论上,在随机的 DNA 文库中, G 和 C 含量以及
A 和 T 含量在每个测序循环上应分别相等, 而且整个测序过程稳定不变。 所以碱基含量
的四条线应该是基本平行的水平线(图 A)。而现实中,由于建库 PCR 扩增时 PCR 引
物的最初几个碱基不能很好地和模板 DNA 结合,常常会导致测序结果序列开始的大约
前 10 个碱基位置,碱基含量有较大的波动。这种波动存属于技术误差(图 B)。如果在
整个测序过程中,四条碱基含量线都出现波动,可能是样品库里有过多的接头序列的二
聚体(图 C,D)。在建库过程中,如果加入的接头序列过量,两个接头序列可能会连在
一起,中间没有要测序的插入序列, 形成接头序列二聚体。 这些二聚体可以利用 adapter
trimmer 软件去除。
5)过量出现的序列
过量序列模块是查看数据是否有污染的另一种方法。 如果某个序列的数量占全部序列的
% 以上, FASTQC 就定义该序列为 over-represented 。这些 over-represented 序
列通常 标示着污染序列的存在 。这种污染如果是建库测序中的接头序列, fastqc 可以检
测并标示出可能的来源( possible source )。但如果污染是由于其他来源的 DNA ,比
如其他生物的 DNA ,FASTQC 就没法判断污染序列的来源。这就需要生信分析人员利
用其他方法找出污染源。 比如将大量出现的序列和 NCBI 的 DNA 数据库进行 blast ,看
看污染序列是否来自其他物种。
6)过量出现的 Kmer
检查是否有接头序列,还可以查看 k-mer 含量。如果有些 k-mer 过量出现,很有可能
有序列污染。过量出现的 k-mer 可能会有三种情况:序列5 -端,序列中间,或者序
列3-端。5’-端过量出现的 k-mer 是建库 PCR 扩增时 PCR 引物无法和 DNA 模板
很
您可能关注的文档
最近下载
- 品管圈PDCA获奖案例-精神科提高住院病人精神障碍作业治疗参与率医院品质管理成果汇报.pptx
- 基于混频非结构化数据的中国碳价预测.pdf VIP
- 《德固赛树脂产品资料》.ppt
- 全球变化课件06新生代衰落与第四纪.pptx VIP
- 2025年全国翻译专业资格(水平)考试土耳其语一级笔译试卷.docx VIP
- Unit 4 Amazing Plants and Animals Section B(1a-2d)课件 2025人教版英语八年级上册.pptx
- 全球变化课件新生代衰落与第四纪.ppt VIP
- 公安信访与警调对接课件.pptx VIP
- 高等数学(上册)(同济大学数学系)PPT全套完整教学课件.pptx
- 食材配送时间安排计划.docx VIP
文档评论(0)