DNA序列的k-mer index 问题-基于Hash算法快速检索.docVIP

下载本文档

6
0
约4.7千字
约 13页
2016-01-22 发布于安徽
举报
版权申诉

DNA序列的k-mer index 问题-基于Hash算法快速检索.doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

--(完美WORD文档DOC格式,可在线免费浏览全文和下载)值得下载！

2015山东科技大学数学建模竞赛承诺书我们仔细阅读了山东科技大学数学建模竞赛的竞赛规则. 我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。如有违反竞赛规则的行为，我们将受到严肃处理。我们参赛选择的题号是（从A/B/C中选择一项填写）：我们的参赛序号为：所属学院（请填写完整的全名）：参赛队员 (打印并签名) ：1. 2. 3. 日期：年月日基于Hash表在大量快速索引查找摘要：解决大量数据中查找所在，我们Hash算法思想建立适合此题的快速方法）进制转方式）取得建立索引查询8G内存限制下codeblocks集成开发环境，C语言进行编写k支持1~14。针对问题将依次下列叙述：建立索引算法进行叙述冲突分析对建立索引的计算复杂度和空间复杂度进行分析；索引叙述性能分析整套算法程序不同下内存占用及分析。分析整套算法对算法进行缺陷分析改进方案。：索引算法、表数据结构 1.1背景给定一个DNA序列，这个系列只含有4个字母ATCG，如 S =“CTGTACTGTAT”。给定一个整数值k，从S的第一个位置开始，取一连续k个字母的短串，称之为k-mer（如k= 5，则此短串为CTGTA），然后从S的第二个位置，取另一k-mer（如k= 5，则此短串为TGTAC），这样直至S的末端，就得一个集合，包含全部k-mer 。如对序列S来说，所有5-mer为｛CTGTA，TGTAC，GTACT，TACTG，ACTGT，TGTAT｝通常这些k-mer需一种数据索引方法，可被后面的操作快速访问。例如，对5-mer来说，当查询CTGTA，通过这种数据索引方法，可返回其在DNA序列S中的位置为｛1，6｝。 1.2问题现在以文件形式给定 100万个 DNA序列，序列编号为1-1000000，每个基因序列长度为100 。（1）要求对给定k，给出并实现一种数据索引方法，可返回任意一个k-mer所在的DNA序列编号和相应序列中出现的位置。每次建立索引，只需支持一个k值即可，不需要支持全部k值。（2）要求索引一旦建立，查询速度尽量快，所用内存尽量小。（3）给出建立索引所用的计算复杂度，和空间复杂度分析。（4）给出使用索引查询的计算复杂度，和空间复杂度分析。（5）假设内存限制为8G，分析所设计索引方法所能支持的最大k值和相应数据查询效率。（6）按重要性由高到低排列，将依据以下几点，来评价索引方法性能索引查询速度索引内存使用 8G内存下，所能支持的k值范围建立索引时间二、问题分析在生物技术快速发展的今天，人类分析人类编码的需求也越来越高，人们利用计算机来处理大量DNAk-mer快速查找处理大量数据的问题，所以必须依赖数据结构原理，建立模型构造算法，从而利用的资源解决复杂问题。针对问题按照给定k值，将所有数据题目要求分组，求出每组数据关键码值，并将关键码值与组k-mer所在位置建立对应关系并存储到表中建立哈希表。：要查找的k-mer序列求出关键码值直接输出其关键码值表中对应，加快了索引查询速度。三：四-（二）-2 针对问题四：四-（三）-2 针对问题五：大小动态分配内存建立哈希表，最终实现k支持~14的范围直接寻址，所以查询速度非常快针对问题六：首先考虑其次内存分配尽量减少索引对内存的，G内存限制下，k值支持~14，最后计数器记录已经地址的k-mer个数，倘若达到所有k-mer种类数，则停止建立索引，成功建立。符号符号说明 H(x) 关键码值函数其中