- 61
- 0
- 约2.08千字
- 约 2页
- 2020-01-23 发布于天津
- 举报
深圳杯数学建模夏令营题基因组组装快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义对每个生物体来说基因组包含了整个生物体的遗传信息这些信息通常由组成基因组的或分子中碱基对的排列顺序所决定获得目标生物基因组的序列信息进而比较全面地揭示基因组的复杂性和多样性成为生命科学领域的重要研究内容确定基因组碱基对序列的过程称为测序测序技术始于世纪年代伴随着人类基因组计划的实施而突飞猛进从第一代到现在普遍应用的第二代以及近年来正在兴起的第三代测序技术正向着高通量低成本的方向发展尽管如此目前能直接读取
2014“深圳杯”数学建模夏令营B题
基因组组装
快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。对每个生物体来说,基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。
确定基因组碱基对序列的过程称为测序(sequencing)。测序技术始于20世纪70年代,伴随着人类基因组计划的实施而突飞猛进。从第一代到现在普遍应用的第二代,以及近年来正在兴起的第三代,测序技术正向着高通量、低成本的方向发展。尽管如此,目前能直接读取的碱基对序列长度远小于基因组序列长度,因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。通常的做法是,将基因组复制若干份,无规律地分断成短片段后进行测序,然后寻找测得的不同短片段序列之间的重合部分,并利用这些信息进行组装。例如,若有两个短片段序列分别为
ATACCTTGCTAGCGT
GCTAGCGTAGGTCTGA
则有可能基因组序列中包含有ATACCTTGCTAGCGTAGGTCTGA这一段。当然,由于技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。对组装效果的评价主要依据组装序列的连续性、完整性和准确性。连续性要求组装得到的(多条)序列长度尽可能长;完整性要求组装序列的总长度占基因组序列长度的比例尽可能大;准确性要求组装序列与真实序列尽可能符合。
利用现有的测序技术,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长(reads)。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组,这些软件的核心是某个组装算法。常用的组装算法主要基于OLC(Overlap/Layout/Consensus)方法、贪婪图方法、de Bruijn图方法等。一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点,现有算法的性能还有较大的改善空间。
问题一:试建立数学模型,设计算法并编制程序,将读长序列组装成基因组。你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。
问题二:现有一个全长约为120,000个碱基对的细菌人工染色体(BAC), 采用Hiseq2000测序仪进行测序,测序策略以及数据格式的简要说明见附录一和附录二,测得的读长数据见附录三,测序深度(sequencing depth)约为70×,即基因组每个位置平均被测到约70次。试利用你的算法和程序进行组装,并使之具有良好的组装效果。
附录一:测序策略
测序策略如下图所示。DNA分子由两条单链组成,在图中表现为两条平行直线,两条直线上相对位置的两个碱基相互结合形成碱基对(bp),并且与碱基A结合的碱基必为T,与碱基C结合的碱基必为G。将一个含120,000个bp的完整基因组,随机打断成500bp的片段,然后对500bp的片段进行测序。测序方法如第3步所示,分别从500bp片段的两端,对两条单链进行测序,测得的读长记为reads1,reads2。reads1,reads2的长度均为88bp,且该对reads相距500bp。
图1 测序策略示意图
(更详细的测序策略描述参见
/documents/products/techspotlights/techspotlight_sequencing.pdf)
附录二:数据格式
读长数据格式为fastq格式:
每4行表示一条reads
第一行:@序列ID,包含index序列及read1或read2标志;
第二行:碱基序列,大写“ACGTN”;
第三行:“+”,省略了序列ID;
第四行:质量值序列:字符的ASCII码值-64=质量值。
(更详细的fastq格式介绍参见
/help/SequencingAnalysisWorkflow/Content/Vault/Informatics/Sequencing_Analysis/CASAVA/swSEQ_mCA_FASTQFiles.htm)
附录三:读长数据
测序得到的读长数据存放于两个fastq文件中(见附件一),其中McMc_BAC_1.fq.gz.clean.dup.clean和McMc_BAC_2.fq.gz.clean.dup.clean分别存放reads1和reads2的数据。
(注:后缀为clean的文件可用Microsoft Word 2010等软件打开。)
您可能关注的文档
- 2008年全中等职业学校升学考试专业综合课考试科目一览表.doc
- 2010年百度健康-苏州振华中学校.doc
- 2013年感染性疾病热点回顾.pdf
- 2014年第1期-扬州疾病预防控制中心.doc
- 2014高考化学最有效的解题方法难点3常见有机反应类型.doc
- 2015年第一临床医学院申报课题.doc
- 2018年彩电场总结报告系列中怡康时代.pdf
- 2018年第一季度报告全文.pdf
- 2018年重庆公务员招录考试申论考试大纲解析.ppt
- 2019年广州第十一届长杯-广州乒乓球协会.doc
- 2025年郑州城建职业学院辅导员考试笔试题库附答案.docx
- 2025年郑州城建职业学院辅导员招聘考试真题汇编附答案.docx
- 2025年郑州电子信息职业技术学院辅导员考试笔试真题汇编最新.docx
- 2025年郑州电子商务职业学院辅导员考试笔试真题汇编最新.docx
- 2025年郑州电子信息职业技术学院辅导员考试笔试真题汇编最新.docx
- 2025年郑州电子商务职业学院辅导员招聘考试真题汇编附答案.docx
- 2025年郑州城建职业学院辅导员考试笔试题库最新.docx
- 2025年郑州卫生健康职业学院辅导员招聘考试真题汇编最新.docx
- 2025年邯郸职业技术学院辅导员考试笔试题库最新.docx
- 2025年郑州城市职业学院辅导员考试参考题库最新.docx
最近下载
- 支部党员大会会议记录(支委会选举范例).docx VIP
- 深圳市宝安区2025-2026学年第一学期五年级语文期末学业质量评估卷(原卷+答案)统编版.docx VIP
- 山桐子种植加工、旅游项目可行性研究报告商业计划书.docx VIP
- 山桐子种植及种苗培育种植加工可行性研究报告申请备案.doc VIP
- 和田地区2026年度地直机关公开遴选公务员、事业单位公开选聘工作人员备考题库及完整答案详解1套.docx VIP
- 山桐子合作种植协议合同.docx VIP
- 2025年香氛未来趋势报告-英敏特.docx VIP
- 报告正文2014年太阳绿宝.pdf VIP
- 2025年高考:云南物理--试题及答案.pdf VIP
- 广东省深圳市宝安区2025-2026学年五年级上学期期末学业质量评估语文试卷.docx VIP
原创力文档

文档评论(0)