XML代价估计方法研究综述.pptVIP

  • 1
  • 0
  • 约1.09万字
  • 约 45页
  • 2019-07-16 发布于四川
  • 举报
XML 代价估计方法研究综述 XML Group Outline 研究代价估计的必要性 xml中代价估计研究的难点 背景知识介绍 现有方法分类 研究代价估计的必要性 查询优化的基础 不同分支对查询目标的选择率不同,如果选择性低的分支先于选择性高的分支执行,就会有效的减少中间结果从而提供查询效率 结构连接在XML中是一个很重要的操作,连接的顺序的选择需要计算不同连接顺序的代价 及早给用户提供反馈信息 xml中代价估计研究的难点 XML数据的不规则性是对传统统计信息方法的重要挑战,具体表现在以下几个方面: 路径依赖性, 如同为name结点,在person下和在city下出现意义就完全不同 结构相关性 嵌套在不同祖先下面的同类结点的个数差别可能很大,如book结点下的author个数是不确定的 值相关性 //purchase/Item[type=‘book’][price100] XML的有序性制约了转换规则的灵活性 所有这些问题,都使得在xml中采用传统的代价估计方法不切实际,会带来很大的误差。针对xml数据的特点,我们应该寻求一种新的代价估计方法。 Background Knowledge XML Data Model A large, node-labeled tree T(V,E) Background Knowledge XML Data Model A large, node-labeled tree T(V,E) Background Knowledge XML Query Model A node-labeled query tree TQ Each node of TQ is labeled with a variable name qi in Q Each edge (qi,qj) of TQ is annotated with an XPath expression path (qi,qj) that describes the specific structural constraints specified in Q 现有估计方法的分类 路径选择性计算 Twig匹配个数统计 值谓词选择率估计 结构连接代价估计 Overview 路径选择性计算 问题描述 /a/b[c/d//e][g//e/f]//*/*/e/f Path Tree Markov Table Ashraf Aboulnaga, Alaa R. Alameldeen, and Jeffry F.Naughton. Estimating the selectivity of XML path expressions for Internet scale applications. VLDB 2001 Path Tree Construction Start from an original path tree Count of nodes in absolute paths Aggregate the tree to fit in the limited space Sibling-* Estimation Match the query against the path tree, matching * as the last resort. Need to decide whether to use total count or average count. An XML document and its path tree Aggregate Path Tree Aggregate Path Tree Sibling-* Summarization Markov Table 构造一个表,存储长度=m的不同路径出现的次数,其中m=2。 当查询路径长度=m时,可以直接从表中读出结果,否则,用公式计算。 例如,m=3,查询为//A/B/C/D,则 当表不能装入内存的时候,进行剪枝操作。 Markov Table :: Example Twig 匹配个数统计 问题描述 Twig Query (basic building block of declarative query languages for XML) XSketch方法 N.Polyzotis, M.Garofalakis. Statistical Synopses for Graph-Structured XML Databases, In Proc.of ACM SIGMOD Conf.2002 N. Polyzotis and M. Garo

文档评论(0)

1亿VIP精品文档

相关文档