- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章 分布查询的存取优化 上一章内容回顾: 1 为什么要进行查询优化? 2 查询优化主要考虑哪些因素? 3 全局优化的一般规则包括哪些?为什么采用这些规则? 4 查询树的组成? 5 片段查询优化的规则包括哪些?为什么建立用这些规则? 主要内容 基本概念 存取优化的理论基础 半联接优化方法 SDD-1 系统优化技术 枚举法优化技术 §5.1 基本概念 1、分布执行过程-1 分布执行过程实际上就是从查询场地发出查询命令、从数据源获取数据、确定最佳的执行场地和返回执行结果的过程。 §5.1 基本概念 §5.1 基本概念 1、分布执行过程-3 查询场地:指发出查询命令和存储最终查询结果的场地。查询场地也称最终结果文件。 源数据场地:指查询命令需要访问的数据副本所在的场地,可能涉及到一个或一个以上的场地。源数据场地也称源数据文件。 执行场地:指查询操作执行所在的场地。执行场地可以和查询场地或源数据场地处于同一场地,也可不处于同一场地。执行场地也称中间结果文件。 §5.1 基本概念 2、分布执行策略举例-1 例5.1.1 有关系EMP和DEPT。 EMP {ENO,ENAME,BIRTH,SALARY,DNO} (主键)雇员编号 雇员姓名 出生日期 工资 部门号 DEPT{DNO,DNAME} (主键)部门号 部门名称 假设: (1)EMP:元组数:10000,元组大小:100B,关系大小:100*10000=1000KB (2)DEPT:元组数:100,元组大小:35B,关系大小:35*100=3.5KB §5.1 基本概念 (1)?策略(设结果为R,以传输代价为主) 策略1:S3为执行场地,则需传输EMP、DEPT 传输量=1000K+3.5K=1003.5K 策略2:S2为执行场地,则需传输EMP到S2,结果R传 输到S3。传输量=1000K+400K=1400K 策略3:S1为执行场地,则需传输DEPT到S1,结果R传输到S3。 传输量=3.5K +400K=403.5K 从上面三个策略看,选择不同的执行场地,传输代价差别很大。应选择最低的传输代价。但组成系统的环境不同,优化的侧重点也不同。 §5.1 基本概念3、存取优化 存取优化的目标 (1)对于远程网,主要考虑通信开销,使通信代价最小。 (2)对于局域网,需同时考虑通信代价和本地处理代价,使综合代价最小。 存取优化的内容 存取优化是在全局优化后的片段查询的基础上进行的实际物理副本查询操作的优化。具体如下: 输入:片段查询表达式 输出:分布执行计划 §5.1 基本概念3、存取优化 内容: (1)确定片段查询需访问的物理副本。通常:①本场地上的物理副本优先;②若二元运算存在尽量选择本场地上的二元运算;③数据最小的物理关系应被优先选中;④网络通信代价小的应优先选中 (2)确定片段查询表达式操作执行的最优顺序。包括从叶到根的执行和同一层叶子上表达式执行的先后,特别是对查询树上的并操作和联接操作的执行次序的确定,其代价差别很大。 (3)选择执行每个操作的方法。如:尽量将同一场地上的、同一物理副本的全部操作组合在一起统一考虑完成。 §5.2 存取优化的理论基础 1、 代价模型 主要指传输代价、I/O代价和CPU代价。 传输代价 在传输过程中,有两种影响:费用和延迟。其中费用起决定作用。按传输费用衡量是指使通信中的整个传输开销最小,即传输的数据量最小。 模型为:CCOM(X)=C0+C1*X 其中:C0:场地间传输数据的启动所需的固定费用(启动一次),简称启动代价; C1:网络单位传输数据费用,简称单位传输代价; X:需传输的数据量。 §5.2 存取优化的理论基础 I/O代价 模型为:CIO(X)=[X/P]*CIO 其中:P:页面的大小;CIO:为每页平均访问代价; X:数据量大小。 CPU代价 模型:CCPU(X)=X*CCPU 其中:CCPU:单位指令代价;X:为指令数。 通常具有下面的统计值: 广域网环境:CCOM/ CIO=20:1; 局域网环境:CCOM/ CIO=1.6:1。 可见,在广域网环境,以传输代价为主;在局域网环境,需综合考虑传输代价和局部代价。 1、 查询模型 (1)数据库特征参数 假设R为一关系。 关系的序数:指关系R包含的元组个数,记为Card(R)。 属性的长度:指属性A定义的取值字节数,记为Length(A)。 元组的长度:关系R中每个元组的字节数,记为Length(R),Length(R)=∑Length(Ai) 关系的大小:关系R所包含的字节
您可能关注的文档
- 实验十三存取检验演示系统详解.doc
- 基于FPGACAN总线通信系统.pdf
- 药品生产过程中微生物控制资料.pdf
- 异型钢丝生产工艺技术课件.pdf
- 课件:第二章 数据和运算.pdf
- 开关电源控制环路分析教材.pdf
- 大数据智能分析平台FineBI使用中常见问题解决方案_附件.pdf
- 实时数据库-eDNA详解.doc
- Windows网络操作系统综合实训任务、指导书.doc
- 条形码识别技术发展历程(副本).ppt
- 国开《当代中国政治制度》形考任务1-4.doc
- 2025年春江苏开放大学西方行政学说060191形考作业1-3.pdf
- 国开学习网《商务英语阅读》第三次作业答案.doc
- 2025届新高考I卷各省市及名校模拟教考衔接10月好题集及答案.pdf
- 2025名校开学模考作文题精选(附范文)二元思辨(模拟题+分析+优秀范文).doc
- 2025年烟台公需课-鲁东大学专业技术人员继续教育网-题库(答案).doc
- 2025年烟台公需课-鲁东大学专业技术人员继续教育网-题库(答案).pdf
- 2025名校开学模考作文题精选(附范文)二元思辨(模拟题+分析+优秀范文).docx
- 2025模考作文之教考衔接:诸子百家、经典名句(2).doc
- 国开学习网《商务英语3》形考综合测试答案.doc
文档评论(0)