- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                基于贪心算法与最短路径的基因组组装最优拼接问题1411
                     基于贪心算法与最小路径的基因组组装优化问题
摘要              
    随着人类基因组计划的实施和基于对的研究,
关键词:基因组组装  全基因鸟枪法测序   贪心算法   最短路径  
一、 问题的重述
1.1问题背景
快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。对每个生物体来说,基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。
1.2问题提出
确定基因组碱基对序列的过程称为测序(sequencing)。测序技术始于20世纪70年代,伴随着人类基因组计划的实施而突飞猛进。从第一代到现在普遍应用的第二代,以及近年来正在兴起的第三代,测序技术正向着高通量、低成本的方向发展。尽管如此,目前能直接读取的碱基对序列长度远小于基因组序列长度,因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。通常的做法是,将基因组复制若干份,无规律地分断成短片段后进行测序,然后寻找测得的不同短片段序列之间的重合部分,并利用这些信息进行组装。例如,若有两个短片段序列分别为
ATACCTTGCTAGCGT
GCTAGCGTAGGTCTGA
则有可能基因组序列中包含有ATACCTTGCTAGCGTAGGTCTGA这一段。当然,由于技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。对组装效果的评价主要依据组装序列的连续性、完整性和准确性。连续性要求组装得到的(多条)序列长度尽可能长;完整性要求组装序列的总长度占基因组序列长度的比例尽可能大;准确性要求组装序列与真实序列尽可能符合。
利用现有的测序技术,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长(reads)。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组,这些软件的核心是某个组装算法。常用的组装算法主要基于OLC(Overlap/Layout/Consensus)方法、贪婪图方法、de Bruijn图方法等。一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点,现有算法的性能还有较大的改善空间。
具体解决问题如下:
问题一:试建立数学模型,设计算法并编制程序,将读长序列组装成基因组。你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。
问题二:现有一个全长约为120,000个碱基对的细菌人工染色体BAC), 采用Hiseq2000测序仪equencing depth)约为70×,即基因组每个位置平均被测到约70次。试利用你的算法和程序进行组装,并使之具有良好的组装效果。
二、 问题分析
2.1  问题一分析
本题要求我们的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。故在下列分别对个别碱基识别错误和基因组中存在重复片段进行分析。
2.1.1个别碱基对识别错误分析
read 中每一个碱基都有一个质量值,来表示该碱基被正确测出的概率。一
般来说,5端的碱基正确的概率较大,而 3端 1 到 3 个碱基可能是错误的。这就要求拼接软件在拼接时能够纠错,但是,可纠错的软件也可能把正确的碱基当作错 误来纠正。所以不仅要求拼接软件在拼接时能够纠错,尽可能多的发现真正的错误,而且要求拼接软件尽可能少的将正确的碱基识别成错误的。
2.1.2基因重复片段分析
 基因组中存在大量重复片段,重复片段可能导致拼接错误,或者导致不连续的较短contig出现。重叠片段类型主要有以下几种,如下图所示。
图1 基因组重叠片段类型图
2.2问题二分析
本题题目提供全长约为120,000个碱基对的细菌人工染色体,采用新一代的Hiseq2000测序仪进行测序。附件提供了筛选好的定长reads数据文件。先将附件的数据提取出来储存到空文件A中,再将之导入到MATLAB中。然后使用第一题提出的基于贪心算法与最短路径算法的组装算法的模型中,得出新的基因组G,并对结果进行误差分析。
三、 问题假设
(1)假设测序过程中没有其他因素的干扰;
(2)假设题目所给定的序列相对位置的碱基全部遵循GU-AC法则;
(3)假设题目中所有的序列都是正常可判别的序列,没有出现序列的基因突变等情况;
(4)假设一个完整基因组,打断成500bp的片段是随机的;
(5)假设基因组每个位置被测到的几率是等可能的;
(6)所有片段上的碱基都已经被识别出来,不存在未知碱基。
四、 模型符号说明
	
                您可能关注的文档
- 国研专稿加息的经济影响分析.doc
- 国电南埔电厂环评简本公示.doc
- 国统笔记第五章.doc
- 国税新企业所得税法与企业会计准则的差异.doc
- 国家职业资格四级中级宝玉石检验员证书鉴定参考复习全含答案出处.doc
- 国贸复习思考题5运输保险答案.doc
- 国美最新战局贝恩倒戈陈晓出局.doc
- 国家级省级工业园区.doc
- 国金计算题10报关.doc
- 国花市花花仙子评选.doc
- 2025-2026普通高中英语学业水平考试复习手册专题04 动词语态(原卷版).doc
- 2025-2026普通高中英语学业水平考试复习手册专题05 非谓语动词(原卷版).doc
- 2025-2026普通高中英语学业水平考试复习手册专题08 名词性从句(原卷版).doc
- 2026年广东高考数学总复习:专题08 立体几何初步(知识梳理+考点精讲)(原卷版).doc
- 2026年广东省春季高考语文试卷试题及答案详解(精校打印版).doc
- 2026年广东高考数学总复习:专题07 解三角形和复数(知识梳理+考点精讲)(原卷版).doc
- 2026年广东高考数学总复习:专题01 集合与常用逻辑用语(知识梳理+考点精讲)(原卷版).doc
- 2026年广东高考数学总复习:专题02 不等式(知识梳理+考点精讲)(原卷版).doc
- 5年(2021-2025)上海高考数学真题分类汇编:专题06 解三角形 原卷版.doc
- 5年(2021-2025)上海高考数学真题分类汇编:专题07 函数的应用 原卷版.doc
最近下载
- 石油化工金属管道工程施工质量验收规范.pdf VIP
- 干部履历表(199版A4).doc VIP
- 危险品车辆挂靠协议范本6篇.docx VIP
- 2025年遵义市大数据发展管理局面向基层公开选调2名事业单位工作人员笔试历年典型考题(历年真题考点)解题思路附带答案详解.docx VIP
- 虚拟电厂建设方案.pptx VIP
- 《建设工程安全生产管理条例》最新版全文.docx VIP
- (学校安全网格化管理实施方案.doc VIP
- 人教版七年级上数学期中试卷(数学试卷新课标人教版七年级上).doc VIP
- ANSI_ISEA 105-2016国外国际标准.pdf VIP
- GB50645-2011 石油化工绝热工程施工质量验收规范.docx VIP
 原创力文档
原创力文档 
                        

文档评论(0)