第6章 数据存储与查询优化[宣讲].pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
6.1.3 记录的存储 数据通常是以记录的形式存储的。 记录又由字段组成。由于字段类型分为定长和变长两种,文件也可分为:定长记录和变长记录两种。 定长记录中,所有的字段都是定长的,只需将所有字段按既定的顺序连续存放,所有字段的地址相对于记录首地址的偏移都可以由计算得到。 * 6.1.3 记录的存储 变长记录中每个字段相对于记录首地址的偏移不固定。 内部格式通常有两种: 用特殊的分割符将记录的各字段分开。 在记录首部存储各个字段的偏移量。 * 块格式 * 数据文件的重整 * 超长记录和记录的跨块存储 跨块存储提高了磁盘空间的利用率。 跨块存储的记录分布于不同的块中,在物理上不连续,需要用一个链表维护同一记录的不同部分。 * 6.1.4 文件组织方式 在DBMS中常用的文件组织方式有: 堆文件:记录间没有次序关系,新加入的记录可以存储在文件中任何有空间的地方。 顺序文件:记录按搜索键排序。 哈希文件:对记录的某些字段进行哈希运算,运算的结果决定记录存储在文件中的哪一块。 聚集文件:将同种类或相关的来自于不同关系的记录存放在同一块中,以减少同时获取这些记录的I/O操作。 * 6.2 索引 从理论上来说,只要记录被正确地存储于书记文件中,DBMS就可以正常工作;但实际上,单纯依赖数据文件处理查询有时效率非常低。 索引是一个表或数据结构,用于确定文件中满足某些条件的行(记录)的位置。 索引键(索引字段) B+树索引、哈希索引 * 6.3 查询处理过程 查询处理过程包括三步:语法分析、查询优化、执行。 查询总代价=I/O代价+CPU代价+内存代价 +通信代价(分布式数据库) * 例:求选修了课程C2的学生姓名。其SQL语句: SELECT S.Sname FROM S,SC WHERE S.Sno=SC.Sno AND SC.Cno=‘C2’; 假定学生-课程数据库中有1000个学生记录,10000个选课记录,其中选修C2课程的选课记录为50个。 系统可用多种等价的关系代数表达式来完成这一查询: Q1= πSname(σS.Sno=SC.Sno∧SC.Cno=‘C2’(S×SC) ) Q2= πSname (σSC.Cno=‘C2’(S∞SC) ) Q3= πSname (S∞σSC.Cno=‘C2’(SC) ) 一个实例 * Q1= πSN(σS.S#=SC.S#∧SC.C#=‘C2’(S×SC)) 1、计算广义笛卡儿积 设一个块能装10个S元组或100个SC元组,在内存中存放5块S元组1块SC元组,则读取总块数为: 1000/10+10000/100 ×(1000/10)/5=2100块 其中读S表100块,读SC表20遍,每遍100块,若每秒读20块,则总计要花105秒。 连接以后的元组数为1000×10000,设每块能装10个元组,则写出这些块要花106/20=5×104秒。 E1xE2代价估计主要是从磁盘读块和中间结果写盘的时间考虑,而对主存中数据的处理时间忽略不计。 E1xE2读块总数=E1的块数+E2的块数×读E2的遍数 * 2、作选择操作 依次读入连接后的元组,按照选择条件选取满足要求的记录,假定内存处理时间忽略。 这一步读取中间文件花费的时间需5×104秒(同写中间文件一样)。满足条件的元组假设仅50个,均可放在内存。 3、作投影操作 把第2步的结果在SN上作投影输出,得到最终结果。 内存操作,忽略。 Q1的查询代价 ≈ 2×(5×104)+105 ≈ 105秒 Q1= πSname(σS.Sno=SC.Sno∧SC.Cno=‘C2’(S×SC)) * 1、计算自然连接 读取S和SC表的策略不变,总的读取块数仍为2100块花费105秒; 但自然连接的结果比第一种情况大大减少,为10000个; 平均每人选10门课,故写出这些元组时间104/10/20=50秒。 2、读取中间文件块,执行选择运算 花费时间也为50秒。 3、把连接结果投影输出 Q2的查询代价 ≈105+50+50 ≈205秒 Q2= πSname(σSC.Cno=‘C2’(S∞SC) ) * 1、先对SC表作选择运算 只需读一遍SC表,存取10000/100块,花费时间为5秒。 满足条件的元组仅50个,存在内存中。 2、读取S表 把读入的S元组和内存中的SC元组作自然连接,也只需读一遍S表共1000/10块,花费时间为5秒。 3、把连接结果投影输出。 Q3的查询代价 ≈ 5+5 ≈10秒 Q3= πSname(S∞σSC.Cno=‘C2’(SC) ) * 查询代价的比较 Q3的进一步优化 若SC上有Cno索引,则选择操作只需读取50个元组。 若S上有Sno索引,则连接操作也不一定要读取所有1000个元组。

文档评论(0)

高胖莹 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档