探讨数据库物理结构优化技术.docVIP

下载本文档

0
0
约3.92千字
约 7页
2017-10-18 发布于北京
举报
版权申诉

探讨数据库物理结构优化技术.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

探讨数据库物理结构优化技术　　摘要：随着大数据时代的到来，人们对数据的存储及查询提出更高要求，在海量的数据中迅速查询到所需内容，仅仅依靠SQL查询很难满足要求，应从数据库物理结构入手进行优化。本文对数据库物理结构优化要素进行分析，提出工作负荷压缩技术、成本估计与数据抽样技术、组合优化搜索算法等优化技术，以供参考。　　关键词：数据库物理结构优化技术探讨　　中图分类号：TP301 文献标识码：A 文章编号：1007-9416（2016）12-0231-02 　　数据库物理结构优化旨在逻辑结构设计的基础上，提高数据库存储及访问的高效性，尤其在大数据时代背景下，为满足人们生产生活对数据查询质量及与效率的要求，加强对数据库物理结构优化的探讨具有重要的现实意义。　　1 数据库物理结构优化要素　　数据库物理结构优化要素包括索引、物化视图、无共享分区、多维群集等，其中索引是一种提高检索速度的数据组织，一定程度上可提高数据库检索性能。当前索引的优化由半自动优化、联机优化以及脱机优化之分，不同的优化手段对应不同种应用；物化视图是一种保存在基表上的数据库对象，服务于连接或聚集等操作耗时严重的行为，用于提高获得结果的效率；无共享分区是解决数据集复杂程度较高问题的一种策略，其借助独立的服务器集合协同工作在问题域上，要求每个服务器负责处理问题域的一个子集，而服务器之间的数据共享，主要通过高速网络互连实现；多维群集指使用多维立方体形式对数据表加以组织，依据多个维实现对数据的灵活群集。多维群集在大型数据库环境中应用广泛，其支持依据多个维或键实现对表的物理群集，并借助维的索引提供已群集数据的存取，使得CPU与I/O成本大大降低，促进检索性能的提升。　　2 数据库物理结构优化技术　　2.1 工作负荷压缩技术　　数据库物理结构优化数学模型中，工作负荷是针对模型输入的技术，其质量优劣直接关系着推荐优化结果及性能质量。众所周知，人们使用数据库产生的SQL执行语句非常之多，使得工作负荷与优化推荐性能数量庞大，因此，需重点解决工作负荷规模和执行效率间的问题。一方面，工作负荷集压缩后应能完成未压缩工作负荷集的全部功能，而且还应保证前者的工作效率得以明显提升。　　目前，基于距离工作负荷压缩方法和内嵌在优化顾问中的工作负荷压缩方法是较为流型的负荷压缩技术。其中前一种方法的实现建立对原工作负荷认真分析的基础上，使用基于距离的函数，寻找与判断和当前SQL语句相近的语句类别，保留原工作负荷中具有代表性的SQL语句，将其他相似冗余的语句删除，即，将那些语法相近而参数不同的语句加以合并。后一种方法只有具有较大工作负荷时，工作负荷压缩模块才会被优化顾问调用。在该种方法中，原始工作负荷被压缩后，使得负载代价高的语句加以保留，而其他语句被忽略。此种方法较为简单，使得工作负荷数量明显减少，但当遇到语句成本倾斜时往往引发严重不良后果。尽管后来人们对其进行优化，当仍存在一定局限性。　　工作负荷压缩技术使得优化推荐复杂度得以较好的解决，不过考虑到一些压缩算法存在的弊端，如压缩效率低、压缩质量差，因此，实际应用中应具体问题具体分析，结合相关需求选择合适的算法。　　2.2 成本估计与数据抽样技术　　成本估计是数据库物理结构优化工具的核心所在，一定程度上决定着优化质量。人们使用查询优化器实现索引的自动选择，并借助统计数据构建评估模型，使得推荐优化质量得以明显提高。其中统计数据在优化实现中发挥重要作用，而伴随着数据量的不断增加，为更好的解决统计数据效率与质量问题，人们开始使用数据抽样技术。成本估计与数据抽样技术优化数据库物理结构的实现基于工作负荷执行状况的评估。　　面对庞大的数据量，为促使推荐优化成本的降低，人们利用原始数据库统计信息提取、数据抽样技术两种方法获取统计数据。当对数据集的统计精度要求不是很高时，使用数据抽样方法效率非常高。其中应用于数据库领域的抽样技术有随机抽样、伯努利抽样、系统抽样与分层抽样。其中随机抽样中因其随机性使得总体中任何个体具有相等的抽中概率，彼此之间没有任何关系、完全独立，但其要求总体个数可知且有限，而且针对水平分区的数据表并行处理抽样操作的难度较大；伯努利抽样中因具有较小的抽样粒度，会获得对数据特性不依赖且有效的随机抽样，不过其针对行级别的抽样操作，降低了抽样性能，通常为获得抽样性能，可将其和索引配合使用；系统抽样在数据库领域的应用，抽样操作针对存储页面级别，尽管使得抽样性能得以显著提高，不过针对明显群集的数据效果会大大降低；分层抽样实现对事先掌握信息的利用，对总体结构与样本结构的一致性加以充分考虑，提高了样本的代表性。　　实际上无论采用何种抽样技术得到的结果均是原始数据的近似统计，考虑到磁盘上数据的分布并不是均匀的