关于EST和NGS序列的生物信息分析平台开发分析研究.pdf

关于EST和NGS序列的生物信息分析平台开发分析研究.pdf

摘要 DNA测序是现代生物学研究的重要手段,目前已为公共生物数据库积累了 海量的数据资源,主要包括由Sanger测序产生的EST序列以及由下一代测序 (NGS)产生的序列,这些信息被广泛应用于基因识别、基因表达以及注释基因 组等科研领域。针对已有的大量EST数据以及NGS产生的高通量数据进行研究, 开发出统一的数据分析工具,能够充分挖掘其中蕴含的生物信息,提高生物工作 者的实验效率,从而促进利用新技术来解决重大生物学问题。本文首先提出了针 对EST和NGS数据的综合处理框架,然后基于此框架构建了在线生物信息分析 平台。目前,该平台主要研究了两类问题,即EST的模式分析和基于NGS的多 聚腺苷化分析,以后可按照新的分析需求不断拓展功能模块。上述两类问题分析 如下。 (1)基因组注释与基因表达等应用的成功很大程度上依赖于EST序列的质 量。然而,一些GenBankEST却被证明是不准确的,给下游应用造成了不利影 响。识别原始EST中的eDNA终端及其结构不仅有利于控制EST数据质量,而 且可以准确描绘转录本末端。为了能够产生更准确和更可靠的EST数据,本文 基于eDNA的终端模式分析对松树的原始EST数据进行了处理,可以提高识别 和提取真实eDNA插入片段的准确率,有利于基因组注释和基因结构预测等基 于EST的下游应用。 (2)随着NGS的发展,许多研究表明选择性多聚腺苷化在基因组中广泛存 mRNA的生命周期起决定作用。分析不同类型的poly(A)位点及其表达差异,将 有利于深入理解基因表达调控,促进调控真核生物mRNA多聚腺苷化过程的分 子、生物及进化机制的研究。本文针对来自拟南芥不同组织的NGS数据,对 poly(A)信息进行标准化,综合分析了不同条件下多聚腺苷化的相关问题,包括 poly(A)位点分布研究、APA组织特异性分析以及识别差异表达基因。 本文最后给出了在线生物信息分析平台的技术实现方案,该设计基于n、ⅣT 工具包(Smart Web平台的开发。针对平台的多层架构给与了实现,其中接口层基于GWT-RPC, 辑实现。基础设施层设计了适配器组件并对外提供数据访问接口。 关键词:EST模式分析;多聚腺苷化综合分析;GWT Ⅱ Abstract DNA isan meansofmodem has research,which sequencingimportant biology accumulatedamountsofdataresourcesfor huge databases, publicbiological EST aswellas includingsequencesgeneratedbySangersequencing sequencesby informationhasbeen usedin generatedbynext-generationsequencing.Those widely and annotation.Todoresearchonthe geneidentification,geneexpressiongenome ESTdataand data aunified exiaing highthroughputgeneratedNGS,and by deve

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档