DNA序列的k-mer_index问题数模论文.docVIP

  • 20
  • 0
  • 约 23页
  • 2017-08-15 发布于河南
  • 举报
数学建模竞赛 参 赛 论 文 论 文 选 题 :B 题 DNA 序列的k-mer index问题 摘要 本小组在查阅了相关文献资料后,基于“数据结构”中的“哈希算法[2][6]”、“倒排索引[1][2]”法及“BKDRHash算法[2]”,建立相应的数学模型,给出分析和结果,对DNA 序列的k-mer index 问题给出解决方案。 本模型对不同k值采用不同算法建立索引。当k值较小时,利用基因序列其碱基种类较少(仅A,T,G,C四种)的特点,根据哈希算法进制转换的思想,可将k-mer 看成一个四进制的序列数,将其转化为十进制数作为哈希表的关键字[2],并采用倒排索引的方法对哈希表关键字分类整理,建立相应的地址存储单元,实现索引;当k值较大时,考虑到内存溢出[6]的问题,采用“BKDRHash算法”对k-mer进行十进制转化,并结合“倒排索引[2]”法建立索引,从而对给定的 k-mer片段进行精确查找,最终输出碱基片段所在位置。 此方案将“哈希(Hash)算法”、“BKDRHash算法”和“倒排索引法”相结合,对哈希算法结构进行优化,提升了运算效率,操作简洁、高效。实现了在基因数据库[3][4]中对给定的碱基片段的位置进行查找的目的。 关键词:倒排索引,哈希(Hash)算法,BKDRHash算法,碱基序列,基因数据库。 一.问题重述 DNA序列的k-mer

文档评论(0)

1亿VIP精品文档

相关文档