面向海量数据的位图索引技术及应用研究-计算机应用技术专业毕业论文.docxVIP

  • 3
  • 0
  • 约5.68万字
  • 约 71页
  • 2019-05-26 发布于上海
  • 举报

面向海量数据的位图索引技术及应用研究-计算机应用技术专业毕业论文.docx

万方数据 万方数据 独 创 性 声 明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 签 名: 日 期: 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人承诺所提交的学位论文(含电子学位论 文)为答辩后经修改的最终定稿学位论文,并授权武汉理工大学可以 将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大 学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社 会公众提供信息服务。 (保密的论文在解密后应遵守此规定) 研究生(签名): 导师(签名): 日期 武汉理 武汉理工大学硕士学位 摘 要 随着互联网的飞速发展,数量巨大、种类繁多的数据涌入互联网,大数据 时代随之到来。在数据量大、种类繁多的海量数据中快速、准确的查找到满足 条件的数据具有重要的现实意义。为加快和优化查询过程,索引技术应运而生。 在众多索引技术中,位图索引以存储空间小,查询速度快等特点在一些场合得 到了切实有效的应用。为了适应海量数据在存储和查询上需求,提出了分值-区 间型位图索引技术,并研究了基于此索引结构的“集合型查询”的优化方案。 同时,设计了一种面向海量数据的位图索引结构。本文的具体工作内容如下: 1)结合位图索引和数据特点,提出了分值-区间型位图索引结构 为了进一步节约海量数据下索引数据存储空间,结合基本位图索引、区间 型位图索引和分值型位图索引优势,提出了一种新型的位图索引方案——分值- 区间型位图索引。该存储结构可以较大程度节约索引的存储,并且更加有利于 集合型查询。 2)利用数据挖掘技术,优化分值-区间型位图索引下集合型查询 为了提高数据的检索速度,通过分析用户查询数据的特点,使用 Apriori 挖 掘算法挖掘某一特定属性列的多个属性值之间的关联性。结合所提出的分值-区 间型位图索引方法,将挖掘出的属性值关联应用到集合型查询语句的优化中, 从而提高集合型查询效率。 3)提出海量数据下位图索引应用的结构 论文提出了一种“二级位图索引”的索引结构,该结构由全局数据的元索 引和局部数据的分布索引两部分构成。首先,在元索引表上对研究属性列建立 了位图索引,提高元索引表访问速度。其次,对元索引的生成进行了优化和完 善,使得数据能够更加“合理”地分配到各个分布式存储节点,更好地利用分 布式节点的存储能力。最后,为了使用高并发查询,在元索引服务器(全局服 务器)节点使用了查询负载均衡的策略。同时对局部数据的分布索引在查询方 面做了进一步的优化。 4)设计实验方案,测试了海量数据下位图索引各项性能 分别测试了各种位图索引下进行定值、范围和集合型查询耗时对比;测试 了高并发对全局数据元索引负载均衡器性能的影响;测试存储节点扩展对整体 读性能的影响。实验结果表明,论文提出的分值-区间型位图索引以及面向海量 I 数据的二级位图索引结构,具有可行性与有效性。 本文的创新工作包括以下两点: 1)提出了分值-区间型位图索引结构,并在此结构基础上对集合型查询做了 优化。 2)提出了一种适应海量数据分布式存储和查询的“二级位图索引”结构,并 对该结构的优势和局限性做了分析。 关键词:海量数据;位图索引;Apriori 挖掘算法;分布式存储;查询 II Abstract With the rapid development of the Internet, large amount of data have swarmed into the net with different kinds of the data type. And the era of big data is coming. How to rapidly and precisely find the data that satisfies our demands in the huge data center? It’s a question which has great significance and value. In many data index technology, bitmap index has been used in many occasion for its less storage space and qui

文档评论(0)

1亿VIP精品文档

相关文档