网站大量收购独家精品文档,联系QQ:2885784924

限定搜索步长分段平滑直方图.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
限定搜索步长的分段平滑直方图 马勇,王焱 辽宁工程技术大学,辽宁阜新(123000 ) E-mail :mayong67@163.com 摘 要:本文在作者曾提出的限定直方数的分段平滑直方图的基础上,又提出了一种新的限 定搜索步长的分段平滑直方图方法,用于估算查询结果大小。关于两种分段平滑直方图方法, 进行了大量的模拟实验。实验结果表明,限定搜索步长的分段平滑直方图计算灵活,实现效 率高,有较好的实用价值。 关键词:数据库,查询优化,查询结果大小的估算,直方图 1. 引言 查询优化一直是实现数据库系统的重要方面,而查询结果大小的估算又是查询优化的关 键。在解决这个问题的众多方法中,直方图方法最为有效,并已在一些商用关系数据库系统 (如Db2,Informix, Ingress, Sybase )中应用。 直方图方法的主要思想是将给定的数据分布分成若干相对平滑的段,即直方图的桶,然 后通过桶中包含的数据产生一个估计值(一般选用平均数),作为桶中各个数据的近似值。 即用直方图近似给定的数据分布,桶中数据的平滑程度决定着直方图对给定数据分布的近似 程度。 直方图方法又可细分为多种类型。吴胜利在文献[1~2]中对各种方法进行了讨论,并提 出了一种新的直方图,即限定误差直方图。马勇等人在文献[3~4]中对限定误差方法又作了 进一步讨论,并在文献[5]中提出了限定直方数的分段平滑直方图。该文对直方图问题作了 进一步研究,提出了一种新的限定搜索步长的直方图方法,并将两种方法作了对比。 2. 基本概念与记号 设R是数据库中的一个关系实例。A是R 的属性。A 的值域是整数(不难推广至实数和其 它有序集合的情形),用A表示。设R 中所有元组在A属性的取值介于Min和Max之间,含(Min 和Max ),即|A|= (Max-Min+1 )。设R 中元组总数为Sum,对此采用二元组集合T={ (a ,v ), 1 1 (a ,v ),……,(a ,v )}来表示A 中的数据分布(在不引起混淆时,可简记为T={ v ,v ,……,v })。 2 2 n n 1 2 n 这里A={ a , a ,……,a }。v 表示R 中属性值取为a 的元组个数,称为a 的频数,显然v ≥0,并 1 2 n i i i i n 且 。 v ∑Sum i i 1 T 上的直方图定义如下: 定义 1(直方图)定义于T上的直方图H是一个三元组集合{h=(as ,at ,att ) ,1≤i≤m} 。[as ,at ] i i i i i i 是A 的子区间,att 表示落入该区间的元组总个数。h 称为直方图H 的第i个直方或桶。as 、at 称 i i i i 为hi 的左右端点。M是直方图H 的直方数。 H 必须满足下面 3 个条件: (1)[as ,at ]∩[as ,at ]∩……∩[as ,at ]=Φ 1 1 2 2 m m (2)[as ,at ] ∪[as ,at ] ∪…… ∪[as ,at ]=A 1 1 2 2 m

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档