时作出选择树状索引还是顺序扫描策略的判断并不容易.ppt

时作出选择树状索引还是顺序扫描策略的判断并不容易.ppt

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
论文报告基于查询采样的高维数据混合索引郑旭旭文章背景在图像生物信息医学成像时间序列等领域需要对大数据集进行相似性查询一般通过特征转换将数据对象映射到高维向量空间把相似性查询转换为向量空间的最近邻查询由于大量数据将引起较高的查询代价因此利用各种索引结构管理特征向量索引结构可分为树状索引与基于顺序扫描的索引树状索引如等通过对聚集数据或空间的划分来提高对数据的过滤能力基于顺序扫描的索引如通过扫描估计文件减少对数据文件的访问量文章问题在高维空间数据集的数据分布与聚集情况对索引策略的影响当维数远远高于维时

论文报告: 《基于查询采样的高维数据混合索引》 郑旭旭 2010-6-21 文章背景 在图像、生物信息、医学成像、时间序列等领域需要对大数据集进行相似性查询.一般通过特征转换将数据对象映射到高维向量空间,把相似性查询转换为向量空间的最近邻查询.由于大量数据将引起较高的查询代价,因此利用各种索引结构管理特征向量. 索引结构可分为树状索引与基于顺序扫描的索引.树状索引,如R-tree,M-tree等,通过对聚集数据或空间的划分来提高对数据的过滤能力;基于顺序扫描的索引,如VA-File,通过扫描估计文件,减少对数据文件的访问量. 文章问题 在高维空间, 数据集的数据分布与聚集情况对索引策略的影响. 当维数远远高于10维时,数据集的聚集情况变差,树状索引的效率随之下降. 当维数大于610维时,任何基于聚类或分割的索引方法的查询效率都低于顺序扫描,基于顺序扫描的索引在此情况下是一种十分可行的检索策略. 当数据维数小于10维时,由于数据的聚集性强,多数已知的树状索引已经证明了其索引性能的有效性. 显然,低维的数据选择树状索引,高维的数据选择顺序扫描策略比较合适.但是,当数据集的维数处于中等规模(大于10维而小于610维)时,作出选择树状索引还是顺序扫描策略的判断并不容易. 一方面,维数高的数据集的聚集性并非一定比维数低的要差; 另一方面,同一固定维数的数据集中存在着不同类型的数据,即密集数据与稀疏数据,密集数据分布较密,由树状索引存储效率较高,稀疏数据分布较散,若用树状索引存储,索引效率会由于稀疏数据过滤能力较差而降低 文章方案 一种支持中等维数多媒体数据查询的混合索引方法,能够自适应地对实际分布不同的数据采用树状过滤技术或顺序扫描方法. 由于实际数据的分布难以把握, 文章提出一种构造性的方法,先根据数据实际分布建立树状索引,再根据数据分布对索引性能的影响自适应地对树的分支进行裁剪. 为了得到数据的真实分布,首先对数据进行聚类分析,再使用聚类分解方法对各聚类内部数据按分布情况进一步划分.数据划分后,通过查询采样算法,以聚类环为单位,得到数据被访问的平均概率,据此分析数据实际分布对不同索引效率的贡献,并从树状索引中裁剪稀疏数据直接存储到顺序文件中,用于顺序扫描. 混合索引结构 两阶段数据划分 首先,通过k-means进行初始的全局聚类划分 再使用聚类分解方法细分数据,得到聚类环 建立树状索引结构 以聚类环为单位索引,把聚类环中的数据存储到B+树中 使用了iDistance方法 混合索引结构 边缘数据分析与混合索引结构 实验分析各个聚类环被访问的情况,得出 查询时被访问的聚类环数量越多,查询速度越慢,甚至低于顺序扫描的性能 聚类分裂避免了聚类内环与查询区域相交而引起的对整个聚类的查询 某些聚类环总是被访问,降低了索引结果的查询效率(各聚类环被访问的概率分布非常不均匀) 混合索引结构 不同分布的数据对查询代价的贡献各不相同,边缘环在树状索引中被访问需要更多的定位时间,如果其查询代价大于在文件中顺序扫描的代价,则可以考虑把B+树中将经常被访问到的边缘聚类环摘除,并放到顺序的边缘数据文件中直接扫描,这要比放在B+树上检索效率更高 数据在树中被访问的平均概率决定了该数据是否适合在树状索引中存储.当数据的平均被访问概率达到一定值时,数据在树中的平均被访问代价高于在顺序文件中扫描的代价,数据被从树中摘除并存储到顺序文件中 自适应的查询采样算法 本文以聚类环为最小单位来判别数据是否为边缘数据,边缘数据所在的环为边缘聚类环,简称边缘环. 为了获得数据分布与索引策略的关系,本文提出一种查询采样算法,以聚类环为单位,得到数据被访问的平均概率,据此分析数据实际分布对不同索引效率的贡献,以便从树状索引中裁剪稀疏数据并直接存储到顺序文件中,用于顺序扫描. 自适应的查询采样算法 设ci为第i个聚类环,P(ci)为聚类环i被查询访问的概率函数,Nci为聚类环i中的数据个数,b为顺序扫描此聚类环时每个节点容纳的数据量(节点能力),u为树中节点容纳的数据个数,且u=0.69×b[8],树的中间节点高度为 H,顺序扫描聚类环i的代价为ciNb,放在B+树中查询它的代价为 聚类环的可索引能力就是使用两种索引策略代价的差,当聚类环的可索引能力大于0时,说明聚类环在B+树索引结构中的查询代价小于顺序扫描,反之,对此聚类环直接顺序扫描的查询效率更高.当聚类环的可索引能力等于0时, P0i的值为聚类环是否为边缘环的概率阈值. 基于置信度的查询采样控制 文章根据中心极限定理在用户需要的置信度下控制采样次数,并通过采样停止的加速度条件进一步减小采样次数 启发 根据什么标准选择合适的存储模式,设计算法进行验证? 面向多租户的数据存储以及 查询优化方案 相关文章-Support

文档评论(0)

zhaohuifei + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档