连明-机器学习在生物信息学中的应用.pdfVIP

  • 26
  • 0
  • 约5.76千字
  • 约 27页
  • 2019-08-31 发布于江苏
  • 举报

连明-机器学习在生物信息学中的应用.pdf

机器学习在生物信息学中的应用 北京基因组所:连明 广告时间 https://ming-lian.github.io 知乎二维码 微信公众号 简书二维码 宇宙实验媛 目录 • 在生物信息领域的应用现状 • 几个咱们最熟悉的应用举例 • 我的实践 • 我的经验教训总结 1. 在生物信息领域的应用现状 广告位招租 2. 几个咱们最熟悉的应用举例——无监督 • 热图——是不是快烂大街了 2. 几个咱们最熟悉的应用举例——无监督 • 高级一点的玩法:多造几种特征 2. 几个咱们最熟悉的应用举例——无监督 • 宏基因组binning 2. 几个咱们最熟悉的应用举例——有监督 • GATK-BQSR 先扯点题外话 为什么一般测序都是起始或末端位置质量低? 2. 几个咱们最熟悉的应用举例——有监督 • GATK-BQSR 先扯点题外话 总而言之: 测序起始阶段:测序仪进行预calling,即 从默认参数开始搜索本次run的最佳参数 测序后期:cluter 内部的不同步累积的噪声 2. 几个咱们最熟悉的应用举例——有监督 • GATK-BQSR 现在回归正题 测序仪给出的测序质量靠谱吗? 带有一定程度的系统误差(非随机误差) 举个例子: 对于一个给定的Run,我们发现,无论什么时候我在测序一个AA 的子序 列时,改子序列后紧接着的一个任意碱基的测序错误率总是要比它的实 际错误率高出1%,那么我就可以将这样的碱基找出来,将它的原始测序 错误率减去1%来对它进行校正 2. 几个咱们最熟悉的应用举例——有监督 • GATK-BQSR 质量矫正的思路:用机器学习的方法把这样的规律找出来——本 质:多变量的回归拟合任务 对该read中的每一个碱基构建下面几项信息: 1. 该碱基来源的read所属的reads group; 2. 该碱基的原始测序质量值; 3. 产生该碱基的测序cycle (相当于它在该read中的位置) 4. 当前位置与上一个位置的碱基组成; 将1、3、4相同的碱基作为一个bin,且认为它们的实际测序质 量(empirical quality )应该相同,为 # mismatch 1 EQ -10log # bases 2 2. 几个咱们最熟悉的应用举例——有监督 • GATK-BQSR Cycle Context EQ RQ mean bin specific shift Bin 5 TACGGA 14.2139 16 1.4 1 Bin 9 CACCTC 40.7907 45

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档