东三省论文封面.docxVIP

下载本文档

4
0
约1.98万字
约 45页
2021-04-17 发布于广东
举报
版权申诉

东三省论文封面.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

封一答卷编号（参赛学校填写）: 答卷编号（竞赛组委会填写）: 论文题目：医保欺诈行为的主动发现（A）组另IJ：本科生参赛队员信息（必填）: 姓名学号联系电话参赛队员1 参赛队员2 参赛队员3 参赛学校：东北农业大学封二答卷编号（参赛学校填写）: 答卷编号（竞赛组委会填写）: 评阅情况（学校评阅专家填写）：学校评阅1. 学校评阅2. 学校评阅3. 评阅情况（联赛评阅专家填写）: 联赛评阅1. 联赛评阅2. 联赛评阅3. 题目摘要本文先提炼出了题目对索引的主要要求是查询时间和内存消耗，因此我们利用哈希表建立了链地址哈希表模型以提供高效的查询速度，同时利用满四叉树模型来实现哈希函数来完全避免哈希冲突，使用vs2012编译了源代码，并进行了准确度和稳定性分析和评估了该索引方法的性能。对于问题1,我们利用链地址哈希表从数据中提取出长度为k的DNA序列的所有可能值，用哈希函数将DNA序列转化为特征码值，并将其在文件的位置存储在哈希表中特征码值对应的链表中，如果出现特征码值重复则利用拉链法将处理冲突。对于问题2,我们首先利用满四叉树模型为原型优化了哈希函数，将k长度的DNA 序列所有可能组合用满四叉树分别列出，然后利用求和公式求出DNA序列的特征码值，使得每一个特征码值只对应一个DNA序列，避免了哈希冲突，提高最后输出结果的准确性，同时降低了内存消耗。对于问题3,我们将实现索引的源码以所属的函数的不同分为create （） , n_key O , input （）,剩余语句以上四个部分，分别计算四个部分的计算（时间）复杂度为0（举）、0（疋）、0（6￡）、0（1）,空间复杂度为0（1）、0（1）、0（k）、0（举），最后利用求和法则得到索引的空间复杂度0（举）与时间复杂度0（4“）。对于问题4,由于查询索引的源码只有一个函数，所以我们只计算出该函数的空间复杂度0（1）和计算（时间）复杂度0（1）即可。对于问题5,我们对源码进行了细致的分析，将源码中哈希表提取出来，在以下限制条件下：分配内存时不会产生内存碎片，不会发生内存泄露的情况下模糊计算了内存消耗，得到内存关于k的函数，最后对函数结果的正确性给予了分析，得到最大k值 14,最后使用时间复杂度0（1）来表示当k取最大时的查询效率。对于问题6,我们分别以建立索引和查询索引的时间复杂度和空间复杂度为依据对四个方面进行了分析，最后综合起来，得到该模型在查询时和小内存限制下的高效性和准确性。最后，我们利用vs2012编译了程序，并减少输入的数据，用人工和程序两方面分别计算结果，利用表格得出结论，再输入大数据量以检验程序的稳定性，最后验证了该模型的正确性，科学性和稳定性，并将模型向学校的学生成绩查询系统进行了推广。关键词：哈希表链表满四叉树模糊计算复杂度一 ?问题重述 1.1模型假设 1 ?假设以文件形式给定的100万个每个基因序列长度为100的DNA序列数据准确无误。假设读取文件、建立索引和检索DNA序列过程中碱基的属性不受影响。假设计算机硬件环境对结果输出没有影响。组成DNA序列的碱基有且只有A. G. C. T四种。 5,假设运行时程序在分配内存中不会产生内存碎片。 1,2符号说明 k 要查询的DNA序列长度 key 特征码值，是每一种DNA序列用哈希函数转化为的int值哈作表 g(x) 自变量为链表里元素的个数，因变量是链表有兀个元素的概率的函数 p 将任何一个元素投到m个链表中的任意一个的概率 L 平均查找长度￡ (加* g(x)*F)/〃 x=0 x从0到n, 的和再除以n,表示总的查找次数除以总的元素得到平均查找长度帥才）兀+1为四叉树的深度，y根据当前深度时所对应的碱基而变化，为A时取0,为G时取1,为C时取2,为T时取3,表示x从 1到k, yx4k~x的和时间复杂度 %) 语句频度 s@) 空间复杂度冋题一和二: 1.3模型的建立与求解根据问题1和2的要求，要求给出一种索引方法，可返回任意一个k-mer所在的 DNA序列编号和相应序列中出现的位置，并且保证当索引建立后查询的速度尽量快，所耗内存尽量小；因此首先假设在只考虑查询速度尽量快的情况下可建立链地址哈希表模型。哈希表是一种根据关键码值而直接进行访问的数据结构，关键码值通过哈希函数将将要查询的DNA序列转换而成，记录存放在散列表内，哈希表通过把关键码值映射到表中的一个位置来访问记录；链地址哈希表的实现方法是分配一个足够长度的数组，数组中每一个元素都是一个链表，将key映射到每个数组的链表上去。所以理论上哈希表在查询一个特定的DNA序列时，可通过哈希函数将该DNA序列转换为对应的关键码值key, 则该D