基于OpenMP的启动子数据分析系统的设计与实现-软件工程专业论文.docxVIP

  • 1
  • 0
  • 约5.43万字
  • 约 73页
  • 2019-02-15 发布于上海
  • 举报

基于OpenMP的启动子数据分析系统的设计与实现-软件工程专业论文.docx

分类号U 分类号 U D C o ●o ● 密级 公 殛 Z毋庐夕擎 硕士研究生学位论文 基于OpenMP的启动子数据分析系统的设计 与实现 申请人: 石燕 学 号: 213.1402 培养单位: 计算机科学与技术学院 学科专业: 软件工程 研舫向: 计算生物学 指导教师: 陆军教授 完成日期: 2015年5月16日 万方数据 qllil qllilhllllll 一iiiiiiiiii暑iiiiiiiiiiii宣iiiiiiiiiiii宣宣iiiiiiiiiiiiiiiiiiii皇塑 Y2770 1 中文摘要 本文对启动子基因数据进行分析及处理,设计并实现了一个基于OpenMP的 启动子数据分析系统,针对大豆的植物启动子序列进行分析。 首先,截取不同植物启动子基因上游1KB区域的序列作为实验数据,与固定 的469个Motif元件进行定位工作。标识出这469个调控元件在lKB启动子序列 中的匹配次数及匹配位置。在匹配过程中,根据需求将匹配结果进行相应去重, 利用现有软件进行频繁模式挖掘处理。其次,对频繁械挖掘的结果文件进行P值 计算,采用素数拆分算法,提高了P值的计算精度。将频繁调控元件组合文件以0. 05/C(469,m)为标准进行过滤,保留有效的频繁组合数据。最后,对异类植物启 动子序列经处理之后的各自频繁组合文件进行共享分析及处理,得到异类植物之 间的共享频繁调控元件,再进行GO功能注释,从注释结果中确定异类植物之间 的启动子序列所存在的相互关系,同时确定是否存在对基因起调控作用的序列, 进而为后续基因研究工作提供参考数据。 在系统的实现过程中,由于基因数据量很大,所以根据系统的各个模块任 务,分析大批量的启动子序列之间的关系及多层循环之间的相互联系,从而采用 OpenMP技术将没有关联的任务进行并行处理。最终,本文将各部分串行算法所 需要的执行时间与对应的并行算法时间进行了逐一对比,实验结果表明,应用并 行技术之后,明显提高了启动子数据分析系统的效率。这种高效地处理方式对基 因的后续研究工作具有重要的现实意义。 关键词:启动子:GO注释;Motif;P-value;OpenMP; 万方数据 AbstractIn Abstract In this papeq the promoter gene data are analysised and processed.Then promoter data analysis system is designed and implemented based on OpenMR The Soybean promoter sequences are analyzed by this system. First of all,the different plant upstream promoter gene sequences of 1 KB area in the gene are intercepted as the experimental data.Then the sequences will be matched with the 469 fixed motifs.Then the matching positions and the matching times of the 469 regulatory elements in 1 KB promoter sequence are identified.According to the requirements,the matching result will be duplicate removal in the matching processing. Next,the matching result is handled by the frequent mining software.Secondl%the P values ofthe frequent mining results file are calculated and the prime splitting algorithm is adopted to increase the calculation precision of P value.Then the 0.05/C(469 m1 is the standard to filter,and the frequent regulatory elements combinations are selected with this standard to find the effective combinations in the frequent data.Finally,the effectiv

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档