数据处理流程 - BGI.ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
风险分析风险评估风险对策风险分析风险评估风险对策风险分析风险评估风险对策

文库质控问题3:文库随机性 GC含量偏差: 实验技术(打断、PCR、测序)本身特点,导致高GC和低GC区域测序覆盖度偏低,甚至某些区域覆盖不到; PCR-free建库技术可减少PCR带来的随机性问题 duplication PCR扩增出很多一模一样的母版分子,测序结果中很多条reads是一样的; 基因组自身重复序列含量高导致duplication偏高; 数据量越大,duplication比例越高 文库质控问题4:其它物种、样品污染 测序质控问题 raw Cluster密度 正常raw Cluster密度: 20~30万/GAtile,200~350万/HiSeqtile Cluster制备时,控制文库浓度,达到适当的raw Cluster密度 密度过低————产量低;密度过高————质量差 样品差异:200小片段能够容忍的密度较高,800bp片段以及RNA样品、特殊样品,应适当降低密度 通过默认质量筛选标准比例(PF) 用read1前25cycle的信噪比进行筛选; 正常PF比例:DNA >80%,RNA >70%; raw Cluster密度越高,PF比例越低; 当raw Cluster密度超高时,图像分析识别出的raw Cluster数量小于真实值,此时PF比例会低于正常; 测序质控问题 光强度信号 受到环境温度、测序仪温度控制、测序仪聚焦、CS试剂、测序试剂、样品等因素共同影响; 测序长度越长,光强度降低越多; 碱基含量不均匀的样品,光强度会有波动,但属于正常 碱基含量 样品本身 测序问题导致有偏向性的测序错误 质量值 Q20:质量值大于等于20的碱基数量/所有碱基数量 reads尾部质量低 Error-rate 与参考序列比较,能够map的reads中: 错误的碱基数量/(正确的+错误的碱基总数); 与参考序列质量有关; 人、小片段文库:101PE 1%~2% 环化大片段error-rate高于小片段文库 reads尾部error-rate高 正常光强度、碱基含量、质量值、Error-rate 异常光强度、碱基含量、质量值、Error-rate 异常光强度与碱基含量 数据处理流程 计算机集群 测序控制PC 测序仪 1.控制测序过程 决定测序长度、填加试剂、控制温度、控制反应时间、拍照 2.图像分析 对测序仪拍照的图片进行图像分析,得到亮点的光强度和坐标 3.basecalling 由光强度得到碱基序列 4.数据传输 将basecalling结果(二进制文件bcl)传输到计算机集群的存储上 5.数据处理 将bcl文件转化为后续信息分析所使用的文本文件(fastq,qseq) 6.index拆分 7.数据质量分析 8.数据备份 9.后续信息分析...... 图像分析及basecalling基本原理 1 2 3 4 C C C C G G G T T A A A Cycle1 Cycle2 Cycle3 对A发出的光拍照 对C发出的光拍照 对G发出的光拍照 对T发出的光拍照 图像分析及basecalling基本原理 1 2 3 4 T C C A A T G C A C G G Cycle1 Cycle2 Cycle3 由4个cluster得到4条序列: ① ATA... ② CCT... ③ GCG... ④ GAC... 图像分析 对每个图片独立的处理 图像锐化 对图片进行快速傅里叶变换(FFT),在傅里叶空间乘以滤波函数后反变换 识别cluster/亮点 信噪比(亮度/背景值)大于阈值的亮点区域 计算亮点光强度和位置坐标 在亮点区域,对光强度进行二维插值,求出最大光强度,以及最大光强度对应的位置坐标 将同一个tile的所有图片中的亮点坐标对齐重叠 不同图片之间存在偏移/拉伸/压缩(offset) 系统、稳定的: 4种光折射率不同、滤波片不同、光路不同,所以造成成像的偏移/拉伸/压缩,可利用crosstalk,计算出偏移/拉伸/压缩的数值(offset参数) 偶然、随机的: flowcell表面不平、自动调整焦距、机械移动不够精确、随机振动,可利用crosstalk解决 Crosstalk AC光谱间有交叠,GT光谱间有交叠,所以:    碱基A的图片中包含C发出的光    碱基C的图片中包含A发出的光    碱基T的图片中包含G发出的光 不利:不能直接比较光强度大小而得到碱基 有利:利用图片中共同的亮点,将所有图片对齐重叠,解决offset问题 A C A C 光谱 光谱 滤波片 图像分析流程 Template Generation 利用AC之间的crosstalk、GT之间的crosstalk,将前

您可能关注的文档

文档评论(0)

云烟 + 关注
实名认证
内容提供者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年03月21日上传了教师资格证

1亿VIP精品文档

相关文档