- 19
- 0
- 约3.15千字
- 约 14页
- 2016-10-08 发布于重庆
- 举报
基于Hadoop的多DNA序列比对
基因多序列比对 on hadoop maoyaozong 目录 双序列比对 hadoop 设计 多序列的星比对算法 实验结果 序列比对背景 序列比对是生物信息学的基础 将未知序列同已知序列进行相似性比对,从而用来对新序列的结构和功能信息进行判断和预测 序列比对一般来说分为双序列比对(Pairwise sequence alignment)和多序列比对(Multiple sequence alignment)。用双序列比对来进行序列的相似性比较,多序列比对来进行序列的同源性分析,将待研究的序列加入一组序列当中,对多条序列进行同时比较。 双序列比对是多序列比对的基础 基因序列==字符串 评判机制----空隙罚分 ATCCTGGCTGATCG | | | | | | ATCTGGGGATAG ATCCTGGCTGATCG | | | | | | | | | | ATC--TGGG--GATAG 有可能破坏其生物学的意义 空隙罚分: h表示空隙罚分; g表示空格罚分; 对于一个空隙中有a个空格的情况: w=h+ag; AT-- -- -- --GCTA-- -- -- GTC--GA 设h=-2,g=-1 W=(h+4g)+(h+3g)+(h+g) =(-2-4)+(-2-3)+(-2-1) =-14 字符相同加分,扣除罚分后的分值,分值越高比对效果越好 双序列比对 为了简化,只计算插入空格g=-2 sequence1=AGC sequence2=AAAC 用动态规划算法计算 C A G A A A C -2 -4 -8 -8 1、相同 +1 2、不同 -1 3、插空 -2 1 -1 -3 -1 0 -2 -3 -2 -1 -5 -4 -1 0 -2 -4 -6 k--band k-band k=|m-n| k 黑盒子 运行双序列比对算法 sequence1 sequence2 new sequence1 new sequence2 多序列比对-----星比对算法 G C T G A T A A G G T C C T G G G T G T T T G G T C T G C T T T G G T C C T G G G T G T T T G G T C T -- G C T G A T A A G G T C C T G G G T G T T -- T G G T -- C T -- G C T -- T -- -- T G G T C C T G G G T G T T -- T G G T -- C T 中心序列 S S1 S2 S3 S4 S5 S6 S7 S8 s1 s2 star1 star2 s3 star3 s7 star7 s4 star4 s5 star5 s6 star6 s8 star8 starsequence sequence1 sequence2 sequence3 sequence4 sequence5 sequence6 sequence7 sequence8 中心序列的汇总 star_1: AG-- -- --TGCG-- --TAGCT-- AGATCG-- --AT star_2: AG-- --TGCG--TAGCT-- --AGATCGAT star_3: AG-- --TGCG-- --TAGCT--AGATCG--AT star_4: AG-- -- --TGCG--TAGCTAGATCG-- -- --AT star_5: AG--TGCG--TAGCT-- --AGATCG--AT final: AG-- -- --TGCG-- --TAGCT-- --AGATCG-- -- --AT 用一个数组来保存:假设中心序列原长length,那么就有length+1个可插入的位置 int star=new int [ length+1 ] ; star [ 2 ]=3 表示在第三个空隙有3个空格,star [ 6 ]= 2 表示在第7个空隙有2个空格 star=[0,0,3,0,0,0,2,0,0,0,0,2,0,0,0,0,0,3,0,0] AGTGCGTAGCTAGATCGAT 流程图 最初的设计 Map 文件转化 key: 序列名 value:序列i 64M
您可能关注的文档
- 本田X-RV参数对比.docx
- 域控制器用户信息存放在域中的域控制器(DC,Domain Controller)上.ppt
- 本田C-RV发动机图片.doc
- 本田公司的经营理念.doc
- 本田Civic史思域.doc
- 本田告诉你什么是瞬间转移.docx
- 本田CRV汽车脚垫.doc
- 本田奥德赛发动机故障灯亮.doc
- 本田大力开发混动,将成为丰田劲敌.doc
- 本田寄居工厂详细报告.docx
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
原创力文档

文档评论(0)