基于hadoop的序列比对和进化树构建方法9.pptVIP

  • 2
  • 0
  • 约3.07千字
  • 约 16页
  • 2018-08-04 发布于江苏
  • 举报

基于hadoop的序列比对和进化树构建方法9.ppt

基于hadoop的序列比对和进化树构建方法9

基于hadoop的序列比对和进化树构建方法 (1) 整体框架介绍 (2) 序列比对设计方案 (3) 进化树构建设计方案 (4) 目前进展及进一步工作 1、整体框架介绍 输入:fasta格式的DNA序列文件 输出:DNA序列比对文件、DNA序列进化树文件 流程:(1) 对输入文件进行格式处理 (2) 多序列比对 (3) 对比对结果做聚类预处理 (4) 进化树构建 1、整体框架介绍 TS00019 ACCGyTGCTGACAACG ACGCCAGTGCASGACG TS00020 ACCGTGCGACACACG ACGACGTTTGCGATG TS00021 ATC TS00019 ACCGTGCTGACAACG ACGCCAGTGCAGACG TS00020 ACCGTGCGACACACG ACGACGTTTGCGATG Key value TS00019:ACCGTGCTGACAACGAC GCCAGT TS00020:ACCGTGCGACACACGACGACGTTT 序列比对: 输入: TS00019:ACCGTGCTGACAACGAC GCCAGT TS00020:ACCGTGCGACACACGACGACGTTT 输出: TS00019 ACCGTGCTGACA--ACGACGCCAGT--- TS00020 ACCGTGC--GACACACGACGAC--GTTT 进化树构建 输入: TS00019 ACCGTGCTGACA--ACGACGCCAGT--- TS00020 ACCGTGC--GACACACGACGAC--GTTT 输出: (((TS00019 , TS00020) ,TS00058) , (TS00033, TS18)) 2、序列比对设计方案 汇总中心序列: new_s1 ACCGT-GCTGACA--ACGACGCCAGT-- new_s1 ACCGT--GCTGACA-ACG--ACGCCAGT new_s3 ACCGTGCTGACA--ACG-ACGCCAG-T- new_s4 ACCGT-GCTGACAACG--ACGCCAGT- final_s ACCGT--GCTGACA--ACG--ACGCCAG-T-- 2、序列比对设计方案 Map1函数的输入输出格式 2、序列比对设计方案 Map2函数的输入输出格式 3、进化树构建设计方案 1 2 3 4 5 1 0 0.015 0.045 0.143 0.198 2 0 0.03 0.126 0.179 3 0 0.092 0.179 4 0 0.179 5 0 比对后的序列计算其距离矩阵 输入数据: TS0001 ACCGTGCTGACA--ACGACGCCAGT--- TS0002 ACCGTGC--GACACACGACGAC--GTTT TS0003 ACCGTGC--GACCCACGTCGAC--GCTT TS0004 ACCGTGC--GATGACGGTCGACG--CTT TS0005 ACCGTG--GACGCCGTGACGACG--CTT 3、进化树构建设计方案 (1) Neighbour-joining 进化树构建方法 n 次循环迭代,时间复杂度 O(n^3) (2) 进化树本质上是一个聚类过程 (3) 预处理的聚类算法要求 时间复杂度低、粒度大、子集合规模合理 3、进化树构建设计方案 进化树算法数据输入格式 setID seq_name seq 1 TS0019 ACGTGCTG--ACGTG--ACGTA 1 TS0020 ACGTGCGTA--AGTCG-ATGAC 2 TS0021 ACGTGGC--ACGTGCGATGAC 2 TS0022 ACGT-CAGCTACGTGC--ACGT 3 TS0023 ACGTG-GTGACGTGACGT--AG 3、进化树构建设计方案 MapReduce 的输入输出格式 3、进化树构建设计方案 reduce 函数的输入输出 输入 ----- NJ 算法 ------ 输出 key value

文档评论(0)

1亿VIP精品文档

相关文档