- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
基于Spark云计算及混沌遗传的基因序列比对研究与实现
?
?
刘清雪罗宇航
摘要:针对现有比对方法速度和准确率不高问题,采用混沌遗传算法快速搜索最优解,Spark云计算进行并行化比对,大幅降低比对执行时间以及提高比对准确度,为解密生物遗传密码提供有效工具。
关键词:Spark云计算;混沌遗传;基因序列比对
:TP391:ADOI:10.3969/j.issn.1003-6970.2021.03.011
本文著录格式:刘清雪,罗宇航.基于Spark云计算及混沌遗传的基因序列比对研究与实现[J].软件,2021,42(03):040-042
ResearchandImplementationofGeneSequenceAlignmentBasedonSparkCloudComputingandChaoticInheritance
LIUQingxue,LUOYuhang
(JilinUniversityofArchitectureandTechnology,Changchun?Jilin?130114)
【Abstract】:Inviewofthelowspeedandaccuracyofexistingcomparisonmethods,chaoticgeneticalgorithmisusedtoquicklysearchfortheoptimalsolution,andSparkcloudcomputingisusedforparallelcomparison,whichgreatlyreducesthecomparisonexecutiontimeandimprovestheaccuracyofthecomparison,fordecryptionThebiologicalgeneticcodeprovidesaneffectivetool.
【Keywords】:sparkcloudcomputing;chaoticinheritance;genesequencealignment
生物信息学是一门新兴的领哉,是一门利用计算机技术研究生物系统之规律的学科,序列比对是生物信后序研究内容如进化树、蛋白质结构预测、药物设计等工作的基础。在序列比对研究中通过查找到相似的基因序列,相似度推测及进化关系分析等来追溯序列的进化关系。生物序列比对是非常活跃的领域,国内外对其进行了广泛的研究并提出了许多方法。第一种方法是渐进对齐方法,通过动态规划(DP)算法,Needleman-wunsch或Smith-waterman,可以找到最高的得分一致性。然而,为了适应海量数据,大多的多重序列比对采用了启发式算法。如T-coffee算法,该法速度快、直接,但易早熟。第二种方法是精确的多序列比对方法,它比渐进法结果更优,但计算量过于集中,因此待比序列数量受限。第三种方法是基于迭代的方法,如模拟退火、遗传算法和进化编程等。遗传算法通过自然选择过程的类比,通过设计编码方式、遗传与变遗算子、设计目标函数、演化出一批候选解决方案。虽然遗传算法易于并行化,能降低时间成本,但其自身存在局部优化、收敛速度慢等缺陷,为此引入混沌算法来实现种群多样化以及快速收敛。随着测序数据的增长,传统的并行处理方法已经无法有效进行数据的存储、分析和处理。而Spark云计算中对输入数据在内存中采用的缓存的机制,数据只被加载一次,极大地节省了反复读取的时间,极大的提高了运算效率[2]。
本文设计了一种基于混沌遗传算法快速搜索算法,通过混沌计算提高比对速度和准确度。采用Spark云计算进一步提高基因序列并行比对速度,以及HadoopHDFS的可扩展基因序列增量存储系统提高存储效率。
1基因序列比对原理分析及遗传算法与混沌理论研究
基因比对通常用于比对两条DNA序列或者蛋白质序列的同源性或者说相似性。首先对经典的动态规划进行了分析,其将一个大问题变成小问题,并逐步求解。由第一个字符开始,假设为缺失,此后每增加一个字符,都有三种可能:mismatch,match,deletion/insert,计算对应的打分,得高分者为最优解,逐步迭代至最后一个字符[1]。
双序列比对的实质就是在两条待比较序列的任意位置插入一个或多个空位,使两个序列具有最大的相似性,然后再根据比较结果推断其生物学意义。
遗传算法是计算数学中用于解决全局最优解的一种进化搜索算法。利用生物进化的规划,首先对问题的解空间进行编码,产生一定的个体,再通过遗传、变遗、自然选择及杂交等手段对个体进行演变,然后再始搜索。但传统的遗传算
文档评论(0)