- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于新一代测序的生物信息学理论与方法 973课题书_本科毕业设计
项目名称: 基于新一代测序的生物信息学理论与方法 张学工 清华大学 2012.1-2016.8 依托部门: 教育部 中国科学院
本项目拟结合基因组、表观基因组、转录组、调控组、宏基因组等各个生物层面上的应用,从数据产生的源头、数据处理的各个环节和对复杂生物机理的解析等方面入手,系统研究新一代测序相关的一系列生物信息学问题。这些问题包括:怎样建立各种新一代测序数据产生和误差的数学模型?能否通过对数据模型和后续应用的研究指导测序的实验设计和技术改进?怎样通过算法、软件、硬件和系统的策略有效应对超海量测序数据带来的存储、传输与计算问题?如何通过信号处理、模式识别等手段准确有效地从ChIP-seq、bisulfite-seq、3C、RNA-seq、CLIP-seq等类型的测序数据中提取各种有效信号?怎样建立比较各种信号的统计模型?怎样通过高分辨率基因组和表观基因组数据识别各种调控元件、构建调控系统?如何通过对RNA测序数据的处理精细绘制转录组、精确构建编码和非编码基因的转录谱和剪接加工模式?如何在没有参考序列的情况下非监督地组装和识别宏基因组和宏转录组中的有效功能单位、进而对微生物群落的功能进行刻画?如何对细胞分化和癌症发生发展等复杂生物过程动态地构建调控网络、解读这些过程中的调控程序?怎样将不同层次、不同尺度上的组学数据进行整合?如何定量描述复杂生物网络的功能、定量研究生物网络整体特性与疾病等表型的关联?在新一代测序数据下,怎样才能更有效地开展群体遗传学研究?采用混合样本测序策略进行全基因组关联研究的统计学性质是怎样的?怎样通过高分辨率的功能元件谱建立复杂疾病遗传学因素的功能通路?等等。
这些问题是紧密联系的,概括起来,可以总结为两类科学问题,我们称之为新一代测序数据的计算问题和推理问题。所谓计算问题,主要包括通过对数据模型的认识改进数据处理质量,通过对算法、软件、存储和计算机体系结构、服务模式等的研究提高数据处理效率和能力等;所谓推理问题,则是指通过对生物问题和测序数据特点两方面的深入研究,对于多种类型的新一代测序数据,提出和发展有效提取生物学信息的理论和方法,提出和发展整合多种组学数据的理论和方法,提出和发展定量描述复杂生物网络、系统及动态演化的理论与方法,并将这些理论与方法应用到细胞分化、癌症发生发展等复杂生物过程调控系统的解析和建模上,获得新的生物学认识。换句话说,这里的计算问题就是怎样改进和提高超大规模测序数据的处理方法和处理能力,推理问题就是怎样从复杂的测序数据中获取知识和规律。对这两类问题的研究相辅相成,构成了我们拟研究的新一代生物信息学理论与方法。
围绕这些关键科学问题,按照新一代测序数据产生、处理、解析、应用的主要环节,本项目拟开展的主要研究内容可归纳为10项,分别针对上述两方面的科学问题、按十个主意研究内容展开研究:
超大规模测序数据的处理方法与处理能力
(1)对新一代测序数据产生模型和特点的数学描述,以及在此基础上的新一代测序实验设计理论与方法。深入理解数据产生过程中可能影响数据质量的各个因素,建立数据产生的数学模型,是更好地处理和应用新一代测序数据的基础。新一代测序的发展主要是由测序技术自身的发展推动的,尚缺乏从最终应用角度对不同测序技术中各个影响因素的系统研究。我们将在本项目中对包括Illumina/Solexa、Roche/454、AB/SOLiD和国产AG-100/200测序系统在内的多种测序平台进行实验设计、误差分析、质量评估和平台比较的研究,也包括对将来第三代测序平台的相应研究,发展新一代测序技术的误差分析和质量控制理论,建立数据分布和测序误差的数学模型,设计具有容错和误差纠正能力的数据处理方法,为后续处理算法提供数据模型指导,也通过对测序误差和质量控制的研究为测序技术本身的发展提供反馈。另一方面,针对测序实验中可以采用的生物条码(barcoding)技术和SOLiD等技术采用的碱基组合编码测序策略,研究在测序技术和实验设计中的编码理论,发展针对不同类型应用的优化实验设计策略和方法。
(2)高效的新一代测序数据基本处理算法和工作流,以及跨平台测序数据的统合分析。不同类型测序技术的数据有各自的特点,但共同特点是数据量大、数据处理过程复杂、对计算资源要求高,这些特点,制约了生物学和医学实验室对测序数据的应用,也构成了将来个体化基因组发展的一个瓶颈。我们将对各种测序数据的典型处理算法进行优化,发展针对新一代测序数据处理的可视化交互工作流;研究发展利用GPU/FPGA加速器支持的快速算法,包括大量短序列比对、从头组装、变异位点检测等,大大提高常见测序数据处理流程的计算效率;研究对多种测序平台数据以及基因芯片数据的统合分析(meta-analysis),比较不同平台的数据
文档评论(0)