- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1.参赛队选择的题号信息与编号
A
B
C
选题
∨
阅卷编号
注:选题在对应的题号下打:∨。阅卷编号由阅卷组老师在阅卷前填写。
2. 参赛队员信息
队员1
队员2
队员3
姓名
陈英豪
张彦军
杨哲
学号
2012211192
2012211046
2012211050
学院
经济管理学院
经济管理学院
经济管理学院
专业
信息管理与信息系统
工程管理
工程管理
年级
2012级
2012级
2012级
签名
注:学院填写学校规定统一的各个简称(如:通信学院、理学院、自动化学院等)。年级为入学年级(如2013级等),队员签名(签名一定要手写)表示遵守下面的承诺书。
承 诺 书
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、
基于be Bruijn图的基因组装算法
摘要
快速和准确地或其生物提的遗传信息对生命科学研究具有重要的意义。测序技术从第一代到现在普遍应用的第二代以及正在兴起的第三代,能直接读取的碱基对序列长度远小于基因组长度。所以测序之前DNA分子要经过复制若干份、随机打断成短片段。要获得整个DNA片段,需要把这些片段利用重合部分信息组装连接。如何在保证组装序列的连续性、完整性和准确性的同时设计耗时短、内存小的组装算法是本题的关键。
新型测序技术使以往的基于重叠图的拼接算法不能胜任,本文中,提出了一种新的重叠群生成算法。该算法基于de bruijn图,将从多头测序转化成在de bruijn图的欧拉路径问题,并采用启发式搜索,能够快速地处理海量测序数据,而且能得到质量较高的重叠群。
本文详细叙述了算法的逻辑原理以及实现过程。确定k-mer长度后,将这些k-mer存入de bruijn图中。de bruijn图用哈希表储存,发现重叠关系式并不需要所有read之间进行两两比对,只要寻找de bruijn图或子图中的一条欧拉路径就可以找到contig。以初始k-mer为节点,采用贪婪策略获得质量较高的后继k-mer,保证了contig的高质量拼接,从而还原基因组。
本算法较为成功的弥补了新一代测序方法带来的一些弊端,在有限时间内对大数据的处理存在较大优势。但由于一些客观原因,对一些测序误差没有做到有效控制。最终在第二问的实践中也获得了质量较高的contig序列。
关键词:de Bruijn图 贪婪图方法 启发式搜索
一、问题的重述
快速和准确的获取生物体的遗传信息对生命科学研究具有重要意义。随着测序技术的不断发展,新一代测序技术产生的在高通量、低成本的同时也带来了错误率略有则加、读长较短等缺点。本题要求利用数学模型,设计算法解决如下几个问题:
(1)测序过程中可能出现的个别碱基对识别错误;
(2)基因组中存在重复片段;
(3)快速的处理海量的序列比对。
二、问题的分析
本题是基于新一代测序技术的基因组装算法问题,要求设计算法针对性的解决新一代测序技术带来的一些弊端。
2.1 read长度较短,数量较多——de bruijn图
新一代测序技术所得的read长度较短,数量较多,不易发现read之间的重叠关系。可以将read转化成定长的k-mer,然后寻找k-mer之间的重叠关系。然后建立de bruijn图,把短序列拼接问题转化为de bruijn图中的欧拉路径问题。
2.2 个别碱基对识别错误——多重对比纠错
通过将多个read放在一起比对来发现错误,如图2.1-1所示 。
图中通过途中4条read比对,可发现read3中的一个碱基错误(read3的第五个碱基)
read1 AACA TGCA TGCT TGAC
read1 AACA TGCA TGCT TGAC ……
reda2 TGCA TGCT TGAC ACAG ……
read3 TGCT CGAC ACAG CGTT ……
read4 TGAC ACAG CGTT ……
图2.1-1
2.3基因组中存在大量重复片段
重复片段可能导致拼接错误,或者导致不连续的较短contig出现。重叠片段类型主要有以下几种,如图2.3-1所示
重复片段问题可以用如下问题解决:通过对比,可先将重复片段隔离开
您可能关注的文档
- 管理哲学新论网作业分析报吿.doc
- 灌浆记录仪多设计方案和对比分析报吿.doc
- 光伏电站设备采购合同(通用版)分析报吿.doc
- 基因组学基础分析报吿.ppt
- 光伏土建工程监理实施细则分析报吿.doc
- 基于abaqus的工字钢柱的稳定性非线性分析报吿.doc
- 光伏箱变技术规范分析报吿.doc
- 基于ARM的两轮自平衡车模型系统设计分析报吿.doc
- 基于ATC单片机的密码锁设计分析报吿.doc
- 光合呼吸专题分析报吿.doc
- 2025浙江温州市公用事业发展集团有限公司面向高校招聘工作人考前自测高频考点模拟试题最新.docx
- 2025年蓬安县财政局下属单位招聘备考题库附答案.docx
- 广安市农业农村局2025年公开遴选市动物卫生监督所工作人员备考题库附答案.docx
- 南昌市劳动保障事务代理中心招聘3名劳务派遣驾驶员参考题库附答案.docx
- 2025浙江绍兴市新昌县机关事业单位招用编外聘用人员36人备考题库最新.docx
- 浙江国企招聘-2025嘉兴海盐县城市投资集团有限公司招聘7人笔试备考试题附答案.docx
- 长沙银行2026校园招聘备考题库最新.docx
- 2026年度中国地震局事业单位公开招聘备考题库附答案.docx
- 2025福建省晋江圳源环境科技有限责任公司招聘6人模拟试卷附答案.docx
- 浙江国企招聘-2025温州平阳县城发集团下属房开公司招聘5人公笔试备考试题附答案.docx
最近下载
- 村党支部换届选举工作流程.doc VIP
- 广西科技师范学院后勤服务人员招聘考试试题及答案.docx VIP
- 室性心律失常的药物治疗进展杨杰孚【58页】.pptx VIP
- 金科新未来2025届11月高三联考-数学答案.docx VIP
- 2024年健康管理师《基础知识》复习笔记.pdf VIP
- 十二种治疗花精及其他花精-TheBachCentre.PDF VIP
- 小鼠脑图谱.pdf VIP
- GB/T4249-2018产品几何技术规范(GPS) 基础 概念、原则和规则.pdf
- 2025年四川省拟任县处级领导干部任职资格试题及参考答案.docx VIP
- 2025年秋新人教版三年级上册数学全册课件.pptx
原创力文档


文档评论(0)