- 1、本文档共24页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于C程序的DNA序列的k-mer_index数据查找
论文题目:
姓名 学院 年级 专业 学号 联系电话 数学分析 高等代数 高等数学 线性代数 概率统计 数学实验 数学模型 CET4 CET6
2013 级 电气工程及其自动化
\ \ 91 89 96 \ \ 560 \
电气工程学院
2013 级 电气工程及其自动化
\ \ 91 88 85 \ \ 578 540
电气工程学院
2013 级 电气工程及其自动化
\ \ 85 89 89 \ \ 554 \
基于C程序的DNA序列的k-mer index数据查找
摘要
DNA 是生命体的基本遗传物质,其组成和序列变化创造了形形色色的生命世界。快速、准确地获取生物体的遗传信息对于生命科学的研究具有重要意义[1]。现需要给定一种数据索引方法 ,利用一种查询算法查询百万条序列中是否存在相应的片段,如果存在,则输出相应片段所在的位置。
针对问题一,运用karp-Rabin算法,在C程序环境下编写字符串匹配算法。具体做法是将碱基序列映射成四进制的数串,对给定的k,构造合适的哈希函数,将四进制数串内每个长度为k的子数串译为唯一的十进制数,按顺序放进索引数组(哈希表)。查找相同的字符串等价于判断相应的hash值是否相同。此法可以大大提高建立索引和查询的时间。
针对问题二,对不同k值经过大量多次的尝试,一般来说建立索引约10秒,查询约0.3秒(Visual C++ 6.0运行环境)。
针对问题三和问题四,本算法使用for循环函数,先计算出建立索引与使用索引的算法中每一个语句的执行次数,然后再相加,最后依据去低阶项,去掉常数项,去掉高阶项的常参的原则得到时间复杂度。然后根据算法临时存储的空间大小来计算空间复杂度,观察有无临时存储大小以及临时存储大小与输入变量的关系。经分析,本算法在建立索引时的时间复杂度为O(n*m),空间复杂度为O(n);在使用索引时的时间复杂度为O(n*m),空间复杂度为O(1)。
针对问题五,首先分析了整形数据最大值的限制,k最大只能取14。为了扩展k的最大值,我们提出将字符串分成几个不相交的完备的字串,其长度不超过14,分别比较每一个字串,然后对结果取交集。并给出了这种方法下所需要的内存与k的关系,得出理论上可以在8G的内存下支持所有k值的查找。
关键词:DNA 数据索引 查询算法 算法复杂度 karp-Rabin 哈希函数
C程序 字符串匹配
问题重述
给定一个DNA序列,这个系列只含有4个字母ATCG,如 S =“CTGTACTGTAT”。给定一个整数值k,从S的第一个位置开始,取一连续k个字母的短串,称之为k-mer(如k= 5,则此短串为CTGTA),然后从S的第二个位置,取另一k-mer(如k= 5,则此短串为TGTAC),这样直至S的末端,就得一个集合,包含全部k-mer 。 如对序列S来说,所有5-mer为
{CTGTA,TGTAC,GTACT,TACTG,ACTGT,TGTAT}
通常这些k-mer需一种数据索引方法,可被后面的操作快速访问。例如,对5-mer来说,当查询CTGTA,通过这种数据索引方法,可返回其在DNA序列S中的位置为{1,6}。
问题
现在以文件形式给定 100万个 DNA序列,序列编号为1-,每个基因序列长度为100 。
(1)要求对给定k, 给出并实现一种数据索引方法,可返回任意一个k-mer所在的DNA序列编号和相应序列中出现的位置。每次建立索引,只需支持一个k值即可,不需要支持全部k值。
(2)要求索引一旦建立,查询速度尽量快,所用内存尽量小。
(3)给出建立索引所用的计算复杂度,和空间复杂度分析。
(4)给出使用索引查询的计算复杂度,和空间复杂度分析。
(5)假设内存限制为8G,分析所设计索引方法所能支持的最大k值和相应数据查询效率。
(6)按重要性由高到低排列,将依据以下几点,来评价索引方法性能
? 索引查询速度
? 索引内存使用
? 8G内存下,所能支持的k值范围
? 建立索引时间
二、分析
针对问题一,要求对给定k,给出并实现一种数据索引方法,可返回任意一个k-mer所在的DNA序列编号和相应序列中出现的位置。以及每次建立索引,只需支持一个k值即可,不需要支持全部k值。首先利用C程序的中的fp文件读取函数将目标文件中的一亿个单字符数据读出,用于建立数据库,由于给定的是100万个DNA序列,每个基因序列长度为100。而C程序中静态数组的范围限制远远小于100万,于是定义全局变量建立动态数组,动态分配储存空间,即建立行为100万,列为100的[×100]的动态数组,也就是索引的建立过程。采用karp-Rabin算法,可令A=0,C=1,G=2,T=3,将碱
您可能关注的文档
- 基于BIOS的嵌入式系统数据通讯开发.doc
- 基于AVR和SG3525的数控开关电源设计.doc
- 基于ATS89C52单片机的多功能智能小车设计.doc
- 基于BS模型的个人住房贷款系统设计与实现.doc
- 基于BS架构的火车站自助服务系统.doc
- 基于BS模式的网上调查系统的设计和实现.doc
- 基于BS模式的网上购物系统的研究与开发.doc
- 基于BS的教学信息管理系统.doc
- 基于BS的大学网上教学系统的设计与实现.doc
- 基于BS结构的水电费网上查询系统开发和设计.doc
- 2024高考物理一轮复习规范演练7共点力的平衡含解析新人教版.doc
- 高中语文第5课苏轼词两首学案3新人教版必修4.doc
- 2024_2025学年高中英语课时分层作业9Unit3LifeinthefutureSectionⅢⅣ含解析新人教版必修5.doc
- 2024_2025学年新教材高中英语模块素养检测含解析译林版必修第一册.doc
- 2024_2025学年新教材高中英语单元综合检测5含解析外研版选择性必修第一册.doc
- 2024高考政治一轮复习第1单元生活与消费第三课多彩的消费练习含解析新人教版必修1.doc
- 2024_2025学年新教材高中英语WELCOMEUNITSectionⅡReadingandThi.doc
- 2024_2025学年高中历史专题九当今世界政治格局的多极化趋势测评含解析人民版必修1.docx
- 2024高考生物一轮复习第9单元生物与环境第29讲生态系统的结构和功能教案.docx
- 2024_2025学年新教材高中英语UNIT5LANGUAGESAROUNDTHEWORLDSect.doc
文档评论(0)