- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
武汉论文交流-滨州医学院 高明海 刘琳
2014年数学建模武汉会议论文 基因组组装的算法设计及其MATLAB实现 学生:杨文越 李敏 刘祥贺 指导教师:高明海 刘琳 滨州医学院公共卫生与管理学院 山东 烟台 一、基因与DNA简介 基因是DNA分子上起遗传作用的片段。DNA的基本组成单位脱氧核苷酸是由一分子磷酸、一分子脱氧核糖和一分子含氮碱基构成。碱基分四种(A、T、C、G),如图所示。 二、基因测序意义与目前算法特点 基因组碱基对的排列顺序包含了整个生物体的遗传信息,快速且准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。研究基因组的序列信息,全面揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。基因组从头测序拼接组装是生物信息学研究领域的核心问题。 三、本文的创新与算法设计 区别于常用方法,提出“先拼接后填补”的组装方法:先充分利用已有数据信息,拼接或组装尽量长的链;其次根据链长度依次对长链中的空位进行填补;最后检验长链并形成定长基因。整个组装过程大致分为四个阶段:读取数据、拼接基因形式链、填补空位和拼接基因。 三、本文的创新与算法设计 2、拼接成长片段 以XY数据为基础、用X(或Y)数据作为拼接检验片段,拼接结果仍赋给变量XY,直至拼接长度接近120000bp或不满足填补条件为止,拼接序号放在数据变量B中。 三、本文的创新与算法设计 3、填补空位 经过上面拼接,形成了一定数量的较长片段,这些片段周期性存在空位,且空位长度都为324bp、其左右都是176bp的碱基片段(长链两端特殊),长链两端各位88bp片段。按长度大小次序取其一长链为基础,用其它XY片段填充这个长链的空位。 三、本文的创新与算法设计 4、组装基因 若拼接长度不足,则以连续的大片段为基础进行对接。若需要也可以使用其它数据 。 四、程序设计 根据上面所述,可以编写程序完成基因组组装工作。本文利用Matlab语言编写了相关程序,大致分为: (1)提取数据并形成XY数据程序reads()。 (2)拼接程序contigs(i) (3)填补空位程序gaps() (4)对接程序genome() 由于时间和篇幅所限,在此略。 五、优缺点评价 优点:提出了“先拼接后填补”组装方法,充分考虑了算法的优劣指标,同时兼顾到生物学方面的要求。 谢谢大家! 由于水平以及时间等因素所限,不足之处,望各位不吝赐教和指正! 由于工作安排原因,今年未能谋面,深感遗憾!诚邀各位到美丽港城烟台做客! 联系方式高明海 QQ 353393783 刘 琳 QQ 286257073 * 脱氧核糖通过磷酸连接构成稳定的外侧骨架链;两链内侧与两脱氧核糖相连的碱基对排列顺序千变万化,DNA分子的特性就体现在特定的碱基对排列顺序中。由于氢键键数的限制,碱基只能是A与T(双键)或C与G(三键)配对,所以DNA分子中A与T等数量、G与C等数量。一确定基因的比值(A+T)/(C+G)可以解释这个DNA片段的生物来源。 由读长组装成基因的软件核心是一种算法,好算法应具备组装效果好、时间短、内存小等特点。目前测序技术在具有高通量和低成本特点的同时也带来了错误率略有增加、读长较短等缺点,传统算法的性能还有较大的改善空间。现存的绝大多数基因组装软件还不能满足具体的应用需要,无论是拼接质量、拼接效率还是内存消耗等方面都需要有进一步的改进或完善。 1、读取数据 读取read1s和read2s数据,分别存放在cell数据变量X和Y中。根据read1s与read2s的对应关系,形成长度为500bp(两端各88bp中间空余324bp)的片段,用XY表示其两端,read1s在左read2s在右。检查reads中的错误并暂时移除问题数据,最后得到的有效数据量为46840个片段。 缺点及改进措施:没有充分利用原始数据信息;没有用数字化手段处理四个碱基字符;运行时间较长,对语言内在结构改进太少等等。算法的实现方式或手段有待改进。 *
您可能关注的文档
- 出生性别比过大对社会发展的影响.pdf
- 列车经过某单线无竖井隧道时的活塞风速计算_贺江波.pdf
- 列车活塞风对隧道通风系统运行状态的影响_刘艳荣.pdf
- 刘瑞丽JACS.pdf
- 刘昌云 基于 iOS的车载视频客户端软件开发.docx
- 刚性基层对正交异性钢_混凝土组合桥面板受力性能影响_傅梅珍.pdf
- 刚性悬索加劲钢桁梁桥施工阶段全桥模型试验研究_刘永健.pdf
- 刚性悬索加劲钢桁梁桥施工过程随机有限元分析_刘剑.pdf
- 刚性悬索加劲钢桁梁桥塔柱纵向稳定计算长度系数研究_刘世忠.pdf
- 刘于斯《从单位组织到话题参与:记者职业群体微博客社会网络的形成机制研究》.pdf
- 高校教师资格证之《高等教育心理学》题型+答案(考点题)附参考答案详解(实用).docx
- 2025年一建《机电工程管理与实务》考试易错知识点梳理及难点突破试题.docx
- 对高效课堂的心得体会.pptx
- 高校教师资格证之《高等教育心理学》题型+答案(考点题)附参考答案详解(夺分金卷).docx
- 2025年一建《机电工程管理与实务》考试易错知识点梳理及解题技巧试题.docx
- 高校教师资格证之《高等教育心理学》题型+答案(考点题)附参考答案详解(研优卷).docx
- 高校教师资格证之《高等教育心理学》题型+答案(考点题)附参考答案详解(综合题).docx
- 2025年一建《机电工程管理与实务》考试易错知识点精讲与模拟试题库.docx
- 高校教师资格证之《高等教育心理学》题型+答案(考点题)附参考答案详解(巩固).docx
- 2024年江苏省扬州市中考英语真题(原卷版).pdf
文档评论(0)