基于C程序的DNA序列的k-mer_index数据查找.doc

基于C程序的DNA序列的k-mer_index数据查找.doc

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于C程序的DNA序列的k-mer_index数据查找

论文题目: 姓名 学院 年级 专业 学号 联系电话 数学分析 高等代数 高等数学 线性代数 概率统计 数学实验 数学模型 CET4 CET6 2013 级 电气工程及其自动化 \ \ 91 89 96 \ \ 560 \ 电气工程学院 2013 级 电气工程及其自动化 \ \ 91 88 85 \ \ 578 540 电气工程学院 2013 级 电气工程及其自动化 \ \ 85 89 89 \ \ 554 \ 基于C程序的DNA序列的k-mer index数据查找 摘要 DNA 是生命体的基本遗传物质,其组成和序列变化创造了形形色色的生命世界。快速、准确地获取生物体的遗传信息对于生命科学的研究具有重要意义[1]。现需要给定一种数据索引方法 ,利用一种查询算法查询百万条序列中是否存在相应的片段,如果存在,则输出相应片段所在的位置。 针对问题一,运用karp-Rabin算法,在C程序环境下编写字符串匹配算法。具体做法是将碱基序列映射成四进制的数串,对给定的k,构造合适的哈希函数,将四进制数串内每个长度为k的子数串译为唯一的十进制数,按顺序放进索引数组(哈希表)。查找相同的字符串等价于判断相应的hash值是否相同。此法可以大大提高建立索引和查询的时间。 针对问题二,对不同k值经过大量多次的尝试,一般来说建立索引约10秒,查询约0.3秒(Visual C++ 6.0运行环境)。 针对问题三和问题四,本算法使用for循环函数,先计算出建立索引与使用索引的算法中每一个语句的执行次数,然后再相加,最后依据去低阶项,去掉常数项,去掉高阶项的常参的原则得到时间复杂度。然后根据算法临时存储的空间大小来计算空间复杂度,观察有无临时存储大小以及临时存储大小与输入变量的关系。经分析,本算法在建立索引时的时间复杂度为O(n*m),空间复杂度为O(n);在使用索引时的时间复杂度为O(n*m),空间复杂度为O(1)。 针对问题五,首先分析了整形数据最大值的限制,k最大只能取14。为了扩展k的最大值,我们提出将字符串分成几个不相交的完备的字串,其长度不超过14,分别比较每一个字串,然后对结果取交集。并给出了这种方法下所需要的内存与k的关系,得出理论上可以在8G的内存下支持所有k值的查找。 关键词:DNA 数据索引 查询算法 算法复杂度 karp-Rabin 哈希函数 C程序 字符串匹配 问题重述 给定一个DNA序列,这个系列只含有4个字母ATCG,如 S =“CTGTACTGTAT”。给定一个整数值k,从S的第一个位置开始,取一连续k个字母的短串,称之为k-mer(如k= 5,则此短串为CTGTA),然后从S的第二个位置,取另一k-mer(如k= 5,则此短串为TGTAC),这样直至S的末端,就得一个集合,包含全部k-mer 。 如对序列S来说,所有5-mer为 {CTGTA,TGTAC,GTACT,TACTG,ACTGT,TGTAT} 通常这些k-mer需一种数据索引方法,可被后面的操作快速访问。例如,对5-mer来说,当查询CTGTA,通过这种数据索引方法,可返回其在DNA序列S中的位置为{1,6}。 问题 现在以文件形式给定 100万个 DNA序列,序列编号为1-,每个基因序列长度为100 。 (1)要求对给定k, 给出并实现一种数据索引方法,可返回任意一个k-mer所在的DNA序列编号和相应序列中出现的位置。每次建立索引,只需支持一个k值即可,不需要支持全部k值。 (2)要求索引一旦建立,查询速度尽量快,所用内存尽量小。 (3)给出建立索引所用的计算复杂度,和空间复杂度分析。 (4)给出使用索引查询的计算复杂度,和空间复杂度分析。 (5)假设内存限制为8G,分析所设计索引方法所能支持的最大k值和相应数据查询效率。 (6)按重要性由高到低排列,将依据以下几点,来评价索引方法性能 ? 索引查询速度 ? 索引内存使用 ? 8G内存下,所能支持的k值范围 ? 建立索引时间 二、分析 针对问题一,要求对给定k,给出并实现一种数据索引方法,可返回任意一个k-mer所在的DNA序列编号和相应序列中出现的位置。以及每次建立索引,只需支持一个k值即可,不需要支持全部k值。首先利用C程序的中的fp文件读取函数将目标文件中的一亿个单字符数据读出,用于建立数据库,由于给定的是100万个DNA序列,每个基因序列长度为100。而C程序中静态数组的范围限制远远小于100万,于是定义全局变量建立动态数组,动态分配储存空间,即建立行为100万,列为100的[×100]的动态数组,也就是索引的建立过程。采用karp-Rabin算法,可令A=0,C=1,G=2,T=3,将碱

您可能关注的文档

文档评论(0)

2017meng + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档