关系系统及查询优化概览.pptVIP

下载本文档

10
0
约6.17千字
约 20页
2016-11-26 发布于湖北
举报
版权申诉

关系系统及查询优化概览.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关系系统及查询优化关系系统的定义、分类全关系系统的十二条基本准则查询优化的目标、步骤查询优化的实例查询优化的一般准则关系代数表达式的优化算法一、关系系统定义关系系统：支持关系模型的数据库管理系统称为关系系统。（笼统）关系模型中并非每一部分都同等重要，并不苛求一个实际的关系数据库管理系统必须完全支持关系模型，也不苛求完全支持关系模型的系统才能称为关系系统。一个系统可定义为关系系统，当且仅当它至少： 1、支持关系数据结构（表） 2、支持选择、投影和（自然）连接运算，对这些运算不要求用户定义任何物理存取路径。对关系系统的最低要求关系系统的定义（续） ? 不支持关系数据结构的系统显然不能称为关系系统 ? 仅支持关系数据结构，但没有选择、投影和连接运算功能的系统仍不能算作关系系统。原因：不能提高用户的生产率支持选择、投影和连接运算，但要求定义物理存取路径，这种系统也不能算作真正的关系系统原因：就降低或丧失了数据的物理独立性选择、投影、连接运算是最有用的运算二、关系系统的分类前面定义的关系系统是关系系统的最小要求。按照E.F.Codd的思想，可以把关系系统分类： 1、表式系统仅支持表数据结构，不支持集合级的操作，不能算关系系统。 2、最小关系系统支持关系数据结构和三种关系操作。（FoxBase, FoxPro等） 3、关系完备的系统支持关系数据结构和所有的关系代数操作（功能上等价）。 4、全关系系统支持关系模型的所有特征。即不仅是关系上完备的，而且支持数据结构中域的概念，支持实体完整性和参照完整性。（目前大多数关系系统已接近或达到了这个目标）关系系统的分类（续）全关系系统的十二条基本准则这是关系模型的奠基人E.F.Codd从理论和实际紧密结合的高度，对关系型DBMS的评述。从实际意义上看，这十二条准则可以作为评价或购买关系型产品的标准。详细见书。三、关系系统的查询优化非关系系统中，用户使用过程化的语言表达查询要求、执行的操作以及操作序列，用户必须了解存取路径，查询效率由用户的存取策略决定，需要用户对查询程序进行“优化”。而在关系系统中，用户只需提出“干什么”，而不必指出“怎么干”，由系统来确定存取策略，提高查询效率，即完成查询优化的工作。查询优化在关系数据库系统中有着非常重要的地位，是影响RDBMS性能的关键因素。系统的“优化器”功能与用户“优化工作”对比： 1）可以从数据字典中获取许多统计信息 2）如果物理统计信息改变了，前者可重新优化选择相适应的执行计划，而后者必须重新写程序，而实际应用中往往不太可能。 3）前者可考虑数百种不同的执行计划，而程序员一般只能考虑有限的几种可能性。 4）前者包括了很多复杂的优化技术，往往只有最好的程序员才能掌握。系统的自动优化使得所有人都拥有这些优化技术。查询优化的一般步骤 1）将查询转换成某种内部表示，通常是语法树（关系代数语法树）。 2）根据一定的等价变换规则把语法树转换成标准形式（优化形式）。可采用关系代数表达式的优化算法自动进行优化。 3）选择低层的操作算法，即确定存取路径。对于语法树中的每一个操作需要根据存取路径（有无索引）、数据的存储分布、存储数据的聚簇等信息来选择具体的执行算法。 4）生成查询计划（执行方案），选择代价最小的。对每个执行计划计算代价，从中选择代价最小的一个。在集中式关系数据库中，计算代价时主要考虑磁盘读写的I/O次数，也有一些系统换考虑了CPU的处理时间。目前的商品化RDBMS答对采用基于代价的优化算法：这种方法要求优化器充分考虑系统中的各种参数（如缓冲区大小、表的大小、数据的分布、存取路径等）。集中式数据库：总代价=I/O代价+CPU代价（时间）多用户数据库：总代价=I/O代价+CPU代价 +内存代价（时间）查询优化的一般准则 1）选择运算应尽可能先做。因为它可使计算的中间结果大大变小。 2）在执行连接（自然连接）前对关系适当地预处理。主要有两种方法，在连接属性上建立索引和对关系排序，然后执行连接。（详细见书 P.161） 3）把投影运算和选择运算同时进行。当他们对同一个关系操作，则可以在扫描关系的同时完成所有的这些运算来避免重复扫描关系。 4）把投影和其前或其后的双目运算结合起来，没有必要为了去掉某些字段而扫描一遍关系。 5）把某些选择同在它前面要执行的笛卡儿积结合起来成为一个连接运算，连接特别是等值连接运算要比同样关系上的笛卡儿积省很多时间。 6）找出公共子表达式，如果这种重复出现的子表达式结果不是很大，从外存读入结果比计算该子表达式的时间少得多，可先计算一次该子表达式并把结果写入中间文件是合算