- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
2012CB316500 基于新一代测序生物信息学理论与方法
项目名称: 基于新一代测序的生物信息学理论与方法 张学工 清华大学 2012.1-2016.8 依托部门: 教育部 中国科学院
本项目拟结合基因组、表观基因组、转录组、调控组、宏基因组等各个生物层面上的应用,从数据产生的源头、数据处理的各个环节和对复杂生物机理的解析等方面入手,系统研究新一代测序相关的一系列生物信息学问题。这些问题包括:怎样建立各种新一代测序数据产生和误差的数学模型?能否通过对数据模型和后续应用的研究指导测序的实验设计和技术改进?怎样通过算法、软件、硬件和系统的策略有效应对超海量测序数据带来的存储、传输与计算问题?如何通过信号处理、模式识别等手段准确有效地从ChIP-seq、bisulfite-seq、3C、RNA-seq、CLIP-seq等类型的测序数据中提取各种有效信号?怎样建立比较各种信号的统计模型?怎样通过高分辨率基因组和表观基因组数据识别各种调控元件、构建调控系统?如何通过对RNA测序数据的处理精细绘制转录组、精确构建编码和非编码基因的转录谱和剪接加工模式?如何在没有参考序列的情况下非监督地组装和识别宏基因组和宏转录组中的有效功能单位、进而对微生物群落的功能进行刻画?如何对细胞分化和癌症发生发展等复杂生物过程动态地构建调控网络、解读这些过程中的调控程序?怎样将不同层次、不同尺度上的组学数据进行整合?如何定量描述复杂生物网络的功能、定量研究生物网络整体特性与疾病等表型的关联?在新一代测序数据下,怎样才能更有效地开展群体遗传学研究?采用混合样本测序策略进行全基因组关联研究的统计学性质是怎样的?怎样通过高分辨率的功能元件谱建立复杂疾病遗传学因素的功能通路?等等。
这些问题是紧密联系的,概括起来,可以总结为两类科学问题,我们称之为新一代测序数据的计算问题和推理问题。所谓计算问题,主要包括通过对数据模型的认识改进数据处理质量,通过对算法、软件、存储和计算机体系结构、服务模式等的研究提高数据处理效率和能力等;所谓推理问题,则是指通过对生物问题和测序数据特点两方面的深入研究,对于多种类型的新一代测序数据,提出和发展有效提取生物学信息的理论和方法,提出和发展整合多种组学数据的理论和方法,提出和发展定量描述复杂生物网络、系统及动态演化的理论与方法,并将这些理论与方法应用到细胞分化、癌症发生发展等复杂生物过程调控系统的解析和建模上,获得新的生物学认识。换句话说,这里的计算问题就是怎样改进和提高超大规模测序数据的处理方法和处理能力,推理问题就是怎样从复杂的测序数据中获取知识和规律。对这两类问题的研究相辅相成,构成了我们拟研究的新一代生物信息学理论与方法。
围绕这些关键科学问题,按照新一代测序数据产生、处理、解析、应用的主要环节,本项目拟开展的主要研究内容可归纳为10项,分别针对上述两方面的科学问题、按十个主意研究内容展开研究:
超大规模测序数据的处理方法与处理能力
(1)对新一代测序数据产生模型和特点的数学描述,以及在此基础上的新一代测序实验设计理论与方法。深入理解数据产生过程中可能影响数据质量的各个因素,建立数据产生的数学模型,是更好地处理和应用新一代测序数据的基础。新一代测序的发展主要是由测序技术自身的发展推动的,尚缺乏从最终应用角度对不同测序技术中各个影响因素的系统研究。我们将在本项目中对包括Illumina/Solexa、Roche/454、AB/SOLiD和国产AG-100/200测序系统在内的多种测序平台进行实验设计、误差分析、质量评估和平台比较的研究,也包括对将来第三代测序平台的相应研究,发展新一代测序技术的误差分析和质量控制理论,建立数据分布和测序误差的数学模型,设计具有容错和误差纠正能力的数据处理方法,为后续处理算法提供数据模型指导,也通过对测序误差和质量控制的研究为测序技术本身的发展提供反馈。另一方面,针对测序实验中可以采用的生物条码(barcoding)技术和SOLiD等技术采用的碱基组合编码测序策略,研究在测序技术和实验设计中的编码理论,发展针对不同类型应用的优化实验设计策略和方法。
(2)高效的新一代测序数据基本处理算法和工作流,以及跨平台测序数据的统合分析。不同类型测序技术的数据有各自的特点,但共同特点是数据量大、数据处理过程复杂、对计算资源要求高,这些特点,制约了生物学和医学实验室对测序数据的应用,也构成了将来个体化基因组发展的一个瓶颈。我们将对各种测序数据的典型处理算法进行优化,发展针对新一代测序数据处理的可视化交互工作流;研究发展利用GPU/FPGA加速器支持的快速算法,包括大量短序列比对、从头组装、变异位点检测等,大大提高常见测序数据处理流程的计算效率;研究对多种测序平台数据以及基因芯片数据的统合分析(meta-analysis),比较不同平台的数据,有效利用平台间技
您可能关注的文档
- (免费)全新版大学英语综合教程第三册课后习题答案.doc
- (最新最全)2011年全国各地100份中考数学试卷分类汇编第21章三角形边与角.doc
- (最新最全)2011年全国各地100份中考数学试卷分类汇编第28章图形相似与位似.doc
- (最新最全)2011年全国各地100份中考数学试卷分类汇编第34章圆与圆位置关系.doc
- (李万福)传统文字起源研究误区.doc
- (陈嘉映)如何理解哲学:维特根斯坦哲学观.doc
- -当代最优秀程序设计语言.doc
- 0-1岁宝宝游戏和活动指南(中国家长网).doc
- 012CB114400 海水养殖动物主要病毒性疫病爆发机理与免疫防治基础研究.Doc
- 01_追寻生命意义.doc
最近下载
- 免征车辆购置税的新能源汽车车型目录(第四批).PDF VIP
- 河北省衡水市衡水中学2025届高三第一次模拟考试数学试卷含解析.doc VIP
- 外科学题库及解答集(含1000题).pdf VIP
- 2025届江苏省南京师范大学附属中学高三第一次模拟考试数学试卷含解析.doc VIP
- Dell戴尔戴尔 Latitude 7210 二合一笔记本 服务手册.pdf
- 安徽中考考纲英语词汇表及翻译.pdf VIP
- 新人教版七年级数学进位制的认识与探索综合与实践教材分析与教学建议.docx VIP
- 工作交接单完整版本.docx VIP
- (《管理学原理与方法》周三多--第七版)第06章--决策.ppt VIP
- 外研版(新教材)三年级上册英语Unit 4《Fun with numbers》全单元教学课件(三起).pptx
原创力文档


文档评论(0)