网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘原理与算法 (2).ppt

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Data Mining: Concepts and Techniques 空间挖掘技术概述 大量的空间数据是从遥感、地理信息系统(GIS)、多媒体系统、医学和卫星图像等多种应用中收集而来,收集到的数据远远超过了人脑分析的能力。日益发展的空间数据基础设施为空间数据的自动化处理提出了新的课题。 空间数据的最常用的数据组织形式是空间数据库。空间数据库必须保存空间实体,这些空间实体是用空间数据类型和实体的空间关系来表示出来的。空间数据库,不同于关系数据库,它一般具有空间拓扑或距离信息,通常需要以复杂的多维空间索引结构组织。 空间挖掘(Spatial Mining)或被称作空间数据挖掘/空间数据库的知识发现,是数据挖掘技术在空间数据方面的应用。简言之,空间数据挖掘,就是从空间数据库中抽取隐含的知识、空间关系或非显式地存储在空间数据库中的其他模式,用于理解空间数据、发现数据间(空间或非空间)的关系。 由于空间数据的复杂性及其应用的专业性,在一般的数据挖掘的基本概念的基础上,需要研究空间数据挖掘特有的理论、方法和应用。 空间数据的主要特点 空间数据是指与二维、三维或更高维空间的空间坐标及空间范围相关的数据,例如地图上的经纬度、湖泊、城市等。 访问空间数据要比访问非空间数据更复杂。对空间数据的访问要使用专门的操作和数据结构。空间数据可以用包含着诸如“接近、南、北、包含于”等空间操作符的查询来访问。 空间数据存放在记录着实体的空间性数据和非空间性数据的空间数据库里。由于空间数据关联着距离信息,所以空间数据库通常用使用距离或拓扑信息的空间数据结构或者索引来存储。就数据挖掘而论,这些距离信息提供了所需的相似性度量的基础。 空间数据的复杂性特征 空间数据的复杂性特征主要表现在以下几个方面: 空间属性之间的非线性关系:空间属性之间的非线性关系是空间系统复杂性的重要标志,被作为空间数据挖掘的主要任务之一。 空间数据的多尺度特征:空间数据的多尺度性是指空间数据在不同观察层次上所遵循的规律以及体现出的特征不尽相同。多尺度特征是空间数据复杂性的又一表现形式。 空间信息的模糊性:模糊性几乎存在于各种类型的空间信息中,如空间位置的模糊性、空间相关性的模糊性以及模糊的属性值等等。 空间维数的增高:空间数据的属性增加极为迅速,如在遥感领域,由于传感器技术的飞速发展,波段的数目也由几个增加到几十甚至上百个,如何从几十甚至几百维空间中提取信息、发现知识则成为研究中的又一难题。 空间数据的缺值:数据的缺值现象源自由于某种不可抗拒的外力而使数据无法获得或发生丢失。如何对丢失数据进行恢复并估计数据的固有分布参数,成为解决数据复杂性的难点。 空间查询问题 查询是挖掘的技术,空间查询及其操作的主要特点有: 空间操作相对复杂和不精确:传统的访问非空间数据的选择查询使用的是标准的比较操作符:,,≤,≥,≠。而空间选择是一种在空间数据上的选择查询,要用到空间操作符,包括接近、东、西、南、北、包含、重叠或相交等。下面是几个空间选择查询的例子: 例如,“查找北海公园附近的房子”。 空间连接(Spatial Join)问题:在两个空间关系上的一个空间性连接操作被称为空间连接(Spatial Join)。在空间连接中,关系都是空间性的,需要与空间连接对应的条件描述。 例如, “相交”关系用于多边形;“相邻”关系用于点。 相同的地理区域经常有不同的视图:一个区域不同的视图(如基础设施、城市规划、绿化等)保存在单独的GIS文件中,融合这些数据,通常需要一个称为“地图覆盖”(Map Overlay)的操作来实现。 一个空间实体可用空间和非空间的属性来描述。当其空间属性用一些空间数据结构存储起来之后,非空间属性就可以存储在一个关系数据库里。对空间数据库来说,不同的空间实体经常是和不同的位置相关联的,而且在不同的实体之间进行空间性操作的时候,经常需要在属性之间进行一些转换。 空间数据结构 由于空间数据的独特性质,有很多数据结构专门被设计用来存储或索引空间数据。这些结构有的考虑的是空间实体的轮廓表示,有的是空间数据的索引方法。 空间实体表示的最常用方法是“最小包围矩形”。 空间索引技术大多是基于对空间目标的近似技术,例如, 空间映射法 (1)采用低维空间向高维空间映射的方式:k维空间具有n个顶点的目标可以映射成n*k维空间的点。映射后,可以直接采用点索引技术。 (2)直接向一维空间映射:通常数据空间被划分成大小相同的网格单元,通过给这些网格单元编码形成一维目标,用传统的一维的索引结构(如B+树等)索引。 分割方法 (1)采用不允许空间重叠的索引方法:将所在的数据空间按某种方法(如二叉树划分、四叉树划分、格网划分等)划分成彼此不相交的子空间。 (2)采用允许空间重叠的索引法:将索引空间划分为多级的子空间

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档