2014年基因组数学建模.docVIP

下载本文档

5
0
约1万字
约 16页
2016-06-27 发布于湖北
举报
版权申诉

2014年基因组数学建模.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

封一答卷编号（参赛学校填写）：答卷编号（竞赛组委会填写）：论文题目：（标明A、B、C、D之一） B 组别：(填写研究生、本科生、专科生或中学生) 本科生参赛队员信息(必填)：姓名学号联系电话参赛队员1 参赛队员2 参赛队员3 参赛学校：沈阳理工大学封二答卷编号（参赛学校填写）：答卷编号（竞赛组委会填写）：评阅情况（学校评阅专家填写）：学校评阅1. 学校评阅2. 学校评阅3. 评阅情况（联赛评阅专家填写）：联赛评阅1. 联赛评阅2. 联赛评阅3. 目录摘要： 1 一、问题重述 2 二、基本假设 4 三、符号说明 4 四、模型建立与求解 4 五、模型的检验 8 六、模型的评价 9 参考文献 10 附录 10 摘要：在世界生物界的飞速发展的今天，我国生物界对于基因组组装也有了一定的突破。尤其是在测序技术上，我国从第一代技术发展到第二代技术，现在正步入第三代技术，但是目前能直接读取的碱基对序列长度远小于基因组序列长度，为了让组装效果更完整，连续和准确，我们利用概率论与数理统计，c语言，和多目标规划，以及c++、matlab等软件，参考了国内外生物界、医学界有关基因组组装技术，以olc技术为核心，建立了集完整、准确、连续为一体的优化模型，来解决测序中可能会出现的问题。具体如下：对于问题一：首先利用olc技术，将附件中给出的测序之后的碱基对，建立优化模型，该模型能够利用多条约束条件来求质量的最小值。利用c++软件来进行两两比较，选择出重复的部分作为结点，其他的部分作为有向线段，利用有向图来选择一条质量最重的一条链，但是可能会存在测序中个别碱基对的错误，所以，将所测出的的最重的这条链所有的结点全部去掉，再将剩下的碱基对重新利用olc法来组装，重复该种实验3-4次，见附录的程序，一定会有质量相同的两条链，则这两条链的组成就是最完整准确的。这个程序的试验次数少，完成组装的时间少。针对组装后的基因组中可能会出现重复片段的问题，我们利用c++软件，建立了优化模型，采取的方法是在olc技术的基础上，检测有向图，判断结点的重复次数，进行标记，直到检测出同一结点前后两条有向线段并不相同，才是无重复基因组的基因组装。对于问题二：现有一个全长约为120,000个碱基对的细菌人工染色体BAC），采用Hiseq2000测序仪equencing depth）约为70×，即基因组每个位置平均被测到约70次。利用c++软件，建立优化模型，在olc技术的基础上，基于问题一所做的程序（见附录），将附件一和附件二的碱基对输入到程序中，组装成完整、准确、连续的基因组，所得的结果就是最完整、准确、连续的基因组。关键字：olc技术 c++ 碱基对优化模型 matlab 多目标规划一、问题重述快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。对每个生物体来说，基因组包含了整个生物体的遗传信息，这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息，进而比较全面地揭示基因组的复杂性和多样性，成为生命科学领域的重要研究内容。测序技术始于20世纪70年代，伴随着人类基因组计划的实施而突飞猛进。从第一代到现在普遍应用的第二代，以及近年来正在兴起的第三代，测序技术正向着高通量、低成本的方向发展。尽管如此，目前能直接读取的碱基对序列长度远小于基因组序列长度，因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。通常的做法是，将基因组复制若干份，无规律地分断成短片段后进行测序，然后寻找测得的不同短片段序列之间的重合部分，并利用这些信息进行组装。当然，由于技术的限制和实际情况的复杂性，最终组装得到的序列与真实基因组序列之间仍可能存在差异，甚至只能得到若干条无法进一步连接起来的序列。对组装效果的评价主要依据组装序列的连续性、完整性和准确性。连续性要求组装得到的（多条）序列长度尽可能长；完整性要求组装序列的总长度占基因组序列长度的比例尽可能大；准确性要求组装序列与真实序列尽可能符合。利用现有的测序技术，可按一定的测序策略获得长度约为50–100个碱基对的序列，称为读长（reads）。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组，这些软件的