- 26
- 0
- 约5.76千字
- 约 27页
- 2019-08-31 发布于江苏
- 举报
机器学习在生物信息学中的应用
北京基因组所:连明
广告时间
https://ming-lian.github.io
知乎二维码
微信公众号
简书二维码
宇宙实验媛
目录
• 在生物信息领域的应用现状
• 几个咱们最熟悉的应用举例
• 我的实践
• 我的经验教训总结
1. 在生物信息领域的应用现状
广告位招租
2. 几个咱们最熟悉的应用举例——无监督
• 热图——是不是快烂大街了
2. 几个咱们最熟悉的应用举例——无监督
• 高级一点的玩法:多造几种特征
2. 几个咱们最熟悉的应用举例——无监督
• 宏基因组binning
2. 几个咱们最熟悉的应用举例——有监督
• GATK-BQSR
先扯点题外话
为什么一般测序都是起始或末端位置质量低?
2. 几个咱们最熟悉的应用举例——有监督
• GATK-BQSR
先扯点题外话
总而言之:
测序起始阶段:测序仪进行预calling,即
从默认参数开始搜索本次run的最佳参数
测序后期:cluter 内部的不同步累积的噪声
2. 几个咱们最熟悉的应用举例——有监督
• GATK-BQSR
现在回归正题
测序仪给出的测序质量靠谱吗?
带有一定程度的系统误差(非随机误差)
举个例子:
对于一个给定的Run,我们发现,无论什么时候我在测序一个AA 的子序
列时,改子序列后紧接着的一个任意碱基的测序错误率总是要比它的实
际错误率高出1%,那么我就可以将这样的碱基找出来,将它的原始测序
错误率减去1%来对它进行校正
2. 几个咱们最熟悉的应用举例——有监督
• GATK-BQSR
质量矫正的思路:用机器学习的方法把这样的规律找出来——本
质:多变量的回归拟合任务
对该read中的每一个碱基构建下面几项信息:
1. 该碱基来源的read所属的reads group;
2. 该碱基的原始测序质量值;
3. 产生该碱基的测序cycle (相当于它在该read中的位置)
4. 当前位置与上一个位置的碱基组成;
将1、3、4相同的碱基作为一个bin,且认为它们的实际测序质
量(empirical quality )应该相同,为
# mismatch 1
EQ -10log
# bases 2
2. 几个咱们最熟悉的应用举例——有监督
• GATK-BQSR
Cycle Context EQ RQ mean bin specific
shift
Bin 5 TACGGA 14.2139 16 1.4
1
Bin 9 CACCTC 40.7907 45
您可能关注的文档
- 一体化泵闸在水环境综合治理中的应用-格兰富.pdf
- 以滴水湖水质保障为核心的临港试点区系统方案-吕永鹏.pdf
- R 社群的组织与参与.pdf
- R语言空间数据处理与分析.pdf
- 对话系统_段清华.pdf
- 个人隐私数据的安全计算-夏虞斌.pdf
- 基于项目反映理论在考试中的测验校准_张雪儿.pdf
- 金融对话机器人_张家兴.pdf
- 梁巧-网络商品评论在线监控.pptx
- 认知诊断模型信息矩阵估计软件包dcminfo的开发与应用(刘彦楼).pdf
- 商业航天的融资渠道与风险研究_2026年1月.docx
- 智慧路灯与城市安防联动布控策略研究_2026年1月.docx
- 元宇宙实验室在工科教学中的沉浸效果评估_2026年1月.docx
- 某公司获国际海底管理局许可采矿但环保组织抗议破坏未知生态系统_2026年1月.docx
- 2026年及未来5年市场数据中国网约车行业发展前景预测及投资战略研究报告.docx
- 2026年及未来5年市场数据中国网络零售产业竞争现状及十五五投资动向研究报告.docx
- 2026年及未来5年市场数据中国卫星通信设备行业市场需求与投资战略规划分析报告.docx
- 2026年及未来5年市场数据中国卫星导航市场竞争力分析及投资战略预测研发报告.docx
- 2026年及未来5年市场数据中国网络教育行业前景研究与投资战略研究报告.docx
- 2026年及未来5年市场数据中国微型滤波器行业市场专项调研及投资前景可行性预测报告.docx
原创力文档

文档评论(0)