- 1、本文档共84页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主要内容
ECUST--Jing Zhang
1
高维数据索引结构
高维数据索引结构的概念
树形索引结构
R-tree - SR-tree -SS-tree
A-tree - X-tree
R*-tree - k-d-tree
VA-File类索引结构
基于降维的索引方法
基于聚类的索引方法
R树类索引结构上实现最近邻查询的方法
多维索引方法的演变
索引结构
ECUST--Jing Zhang
2
关于“索引”
索引的主要用途是查找数据。利用索引可以有效地管理大量的数据,并快速的从这些数据中查找到特定的数据。
影响查询效率的关键因素是磁盘的I/O次数,利用索引技术可以有效的减少I/O次数
传统数据库的索引结构:
B树:键值一维排序,不能搜索多维空间
哈希表:数值精确匹配,不能进行范围查询
ECUST--Jing Zhang
3
一个简单的B树
一个B树的简单的例子:
数据
24,33,16,2,7,20,22,3,5,27, 39,34,38,14,29,19
每四个数据占用一个磁盘页
16个数据占用了四个磁盘页
查找数据28
需要四次I/O操作
刚才的数据生成的B树
ECUST--Jing Zhang
4
首先,将根结点读入内存
将该叶子结点读入内存
共需要两次I/O操作
28
索引结构的本质:空间换时间
ECUST--Jing Zhang
5
划分和有序组织数据
|
减少不必要磁盘访问
|
节省查询时间
高维数据
ECUST--Jing Zhang
6
什么是高维数据?
高维数据就是高维空间的数据
图形数据库中的数据
两维空间中的点、线、矩形
三维空间中的点、立方体、球
应用领域如:CAD , 医学
多媒体数据库中的特征矢量
高维空间的点数据
应用领域如:图象检索
高维数据的特点
ECUST--Jing Zhang
7
一维数据索引结构无法适用于高维数据
高维数据的特点:
具有复杂的结构:有可能是高维空间的一个点,也有可能是复杂的图形
无法对高维数据排序:即不能找到一个合适的方法,使得在高维空间相近的数据在排序后仍然相近
高维数据索引结构的发展
ECUST--Jing Zhang
8
70年代随着在CAD中处理大量的图形数据而出现的。
近年来应用领域越来越广泛,尤其在多媒体数据库方面。
30多年来,人们提出了近百种高维数据索引结构。
高维索引结构的一种简单分类
ECUST--Jing Zhang
9
树形的高维索引结构
R-tree及其变种,kd-tree,Quad-tree, GC-Tree等
基于近似的索引结构
VA-File, LPC-File, CVA-File, VA+-File等
基于降维的索引方法
Pyramid-Technique ,iMinMax(θ) ,iDistance 等
基于聚类的索引方法
Clindex,VQ-Index 等
等等
高维数据的查询方法
ECUST--Jing Zhang
10
查询类型
点查询
特征矢量,精确匹配
范围查询
特征矢量,查询范围
K近邻查询
特征矢量,整数k
不同高维索引结构对应不同的查询方法,有些索引结构可支持以上三种不同类型的查询,有些只支持其中一种或两种查询方法
R树类索引结构
ECUST--Jing Zhang
11
R-tree
ECUST--Jing Zhang
12
1984年由Guttman提出
是B+-tree树在高维数据空间的扩展
是一种高度平衡树
用原始数据的最小边界矩形表示数据
其插入、删除、更新操作都类似于B+-tree树
能够有效支持的数据的维数:20维以下
可以进行点查询和范围查询
R-tree
ECUST--Jing Zhang
13
表示数据的方法
由于高维数据类型复杂,无法在索引结构中直接表示原始数据,在R-tree中用原始数据的最小外接矩形(MBR: Minimal Bounding Rectangle)来表示数据。
R-tree
ECUST--Jing Zhang
14
R-tree结构的特点:
M表示节点中可存放项的数目的最大值,m(m=M/2)表示最小值,则一个节点中必须包含m—M个项,根节点除外。
根节点至少包含两个项,除非它是叶子节点
所有的叶子节点在同一层上
一个R树的例子
ECUST--Jing Zhang
15
名称:内部结点
索引结点
目录结点
特点:不包含实 际的数。
名称:叶子结点
特征:包含实际数据或者指向实际数据的指针
D
F
E
G
H
K
J
I
N
M
L
A
B
C
A
文档评论(0)