连明-机器学习在生物信息学中的应用.pdfVIP

下载本文档

26
0
约5.76千字
约 27页
2019-08-31 发布于江苏
举报

连明-机器学习在生物信息学中的应用.pdf

机器学习在生物信息学中的应用北京基因组所：连明广告时间 https://ming-lian.github.io 知乎二维码微信公众号简书二维码宇宙实验媛目录 • 在生物信息领域的应用现状 • 几个咱们最熟悉的应用举例 • 我的实践 • 我的经验教训总结 1. 在生物信息领域的应用现状广告位招租 2. 几个咱们最熟悉的应用举例——无监督 • 热图——是不是快烂大街了 2. 几个咱们最熟悉的应用举例——无监督 • 高级一点的玩法：多造几种特征 2. 几个咱们最熟悉的应用举例——无监督 • 宏基因组binning 2. 几个咱们最熟悉的应用举例——有监督 • GATK-BQSR 先扯点题外话为什么一般测序都是起始或末端位置质量低？ 2. 几个咱们最熟悉的应用举例——有监督 • GATK-BQSR 先扯点题外话总而言之：测序起始阶段：测序仪进行预calling，即从默认参数开始搜索本次run的最佳参数测序后期：cluter 内部的不同步累积的噪声 2. 几个咱们最熟悉的应用举例——有监督 • GATK-BQSR 现在回归正题测序仪给出的测序质量靠谱吗？带有一定程度的系统误差（非随机误差）举个例子：对于一个给定的Run，我们发现，无论什么时候我在测序一个AA 的子序列时，改子序列后紧接着的一个任意碱基的测序错误率总是要比它的实际错误率高出1%，那么我就可以将这样的碱基找出来，将它的原始测序错误率减去1%来对它进行校正 2. 几个咱们最熟悉的应用举例——有监督 • GATK-BQSR 质量矫正的思路：用机器学习的方法把这样的规律找出来——本质：多变量的回归拟合任务对该read中的每一个碱基构建下面几项信息： 1. 该碱基来源的read所属的reads group； 2. 该碱基的原始测序质量值； 3. 产生该碱基的测序cycle （相当于它在该read中的位置） 4. 当前位置与上一个位置的碱基组成；将1、3、4相同的碱基作为一个bin，且认为它们的实际测序质量（empirical quality ）应该相同，为 # mismatch 1 EQ -10log # bases 2 2. 几个咱们最熟悉的应用举例——有监督 • GATK-BQSR Cycle Context EQ RQ mean bin specific shift Bin 5 TACGGA 14.2139 16 1.4 1 Bin 9 CACCTC 40.7907 45

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

连明-机器学习在生物信息学中的应用.pdfVIP