基因序列拼接数学建模.docx

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基因序列拼接数学建模

基于欧拉路径的基因测序重组模型摘要本文基于新一代基因测序原理,优化了传统基因测序拼接模型并根据所给的数据,依据欧拉路径拼接算法建立了正确、高效的优化型基因测序重组模型,拼接了细菌人工染色体,并根据泊松过程,验证了模型的适用性与有效性。问题一,由于在测序时可能出现个别碱基对识别错误、基因组中存在重复片段等复杂情况,导致传统基因测序拼接模型重组的基因组存在不可靠、不准确、不连续和不正确等问题。为解决这些问题,构建准确高效的基因测序重组模型,做到了以下几点:(1)建立质量对比纠错模型,利用基因测序仪检测出的格式数据中的,将所有的碱基质量与标准值进行对比,剔除存在碱基的质量值不达标的错误的;(2)建立重复检查剔除模型,将经过质量对比纠错模型处理的放在集中,一一对比集中的数据,找出数据中的重复片段,将多余个体剔除;(3)建立基于欧拉路径的基因测序重组模型,依据欧拉路径拼装算法,通过编程,建立基于欧拉路径的基因测序重组模型。具体过程如下图所示:既利用拼接成,再由拼接成过程的。问题二,仔细分析附录所给的数据,根据问题一建立的建立基于欧拉路径的基因测序重组模型重组基因组,利用泊松路径近似原理,对覆盖深度的基因测序数据,给出了一个岛中所含片段数的概率计算公式:以及岛长的期望的计算公式:对重组后的基因组进行精确的计算,岛中所含的片段数以及岛的长度与基于欧拉路径的基因测序重组模型完全一致,证明了模型的可靠性与有效性。 关键词:基因测序、欧拉路径、纠错模型、重复剔除模型、泊松过程1、问题一重述快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。对每个生物体来说,基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的或分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。确定基因组碱基对序列的过程称为测序。测序技术始于20世纪70年代,伴随着人类基因组计划的实施而突飞猛进。从第一代到现在普遍应用的第二代,以及近年来正在兴起的第三代,测序技术正向着高通量、低成本的方向发展。尽管如此,目前能直接读取的碱基对序列长度远小于基因组序列长度,因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。通常的做法是,将基因组复制若干份,无规律地分断成短片段后进行测序,然后寻找测得的不同短片段序列之间的重合部分,并利用这些信息进行组装。例如,若有两个短片段序列分别为 则有可能基因组序列中包含有这一段。当然,由于技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。对组装效果的评价主要依据组装序列的连续性、完整性和准确性。连续性要求组装得到的(多条)序列长度尽可能长;完整性要求组装序列的总长度占基因组序列长度的比例尽可能大;准确性要求组装序列与真实序列尽可能符合。利用现有的测序技术,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组,这些软件的核心是某个组装算法。常用的组装算法主要基于方法、贪婪图方法、图方法等。一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点,现有算法的性能还有较大的改善空间。问题一:试建立数学模型,设计算法并编制程序,将读长序列组装成基因组。你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。问题二:现有一个全长约为120,000个碱基对的细菌人工染色体, 采用测序仪进行测序,测序策略以及数据格式的简要说明见附录一和附录二,测得的读长数据见附录三,测序深度约为70×,即基因组每个位置平均被测到约70次。试利用你的算法和程序进行组装,并使之具有良好的组装效果。2、模型的假设1、在进行基因组测序时测序仪都是好的,并且都无故障。2、假设题目所给定的序列相对位置的碱基全部遵循GU-AC法则;3、假设题目中所有的序列都是正常可判别的序列,没有出现序列的基因突变等情况;4、假设一个完整基因组,打断成500bp的片段是随机的;5、假设基因组每个位置被测到的几率是等可能的;6、所有片段上的碱基都已经被识别出来,不存在未知碱基。3、符号说明 第个测序片段的中第个碱基的质量值第个测序片段的中第个碱基的质量值碱基质量的标准值利用测序得到的长度为88个碱基对的序列(读长)以为单位,单倍体基因组的长度以为单位,随机测得的的长度测序所得的的数目比对过程中确定两个片段相邻关系最小重叠长度两个相邻相同的碱基序列占长度的比例 比对时,不需要进行匹配的比例,即 表示两个相邻片段起始位置的间距 表示

文档评论(0)

wuyuetian + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档