基于web挖掘空间数据挖掘技术研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于web挖掘空间数据挖掘技术研究

基于web挖掘空间数据挖掘技术研究   [摘要]空间数据挖掘技术(Spatial Data Mining)是建立在空间数据库的基础上,通过使用各种机器学习技术,从海量空间数据中挖掘出未知的有用的规律和知识,从而提供支持决策的依据。在现在已建立的GIS空间数据库中,大量的可分析、分类的知识,如空间位置分布规律、空间关联规则、形态特征区分规则等都隐藏在空间数据中需要被挖掘才能被发现。因此,空间数据挖掘技术就显得尤为重要。因而对于空间数据挖掘技术,特别是基于Web挖掘部分的技术进行研究。   [关键词]空间数据挖掘 地理信息系统 数据挖掘 知识发现   中图分类号:TP319∶P208 文献标识码:A 文章编号:1671-7597(2008)1120036-01      一、知识发现与数据挖掘技术概述      我们把从庞大的数据库集或者数据库中提炼有用信息的科学成为数据挖掘。它汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容,是一门新兴的交叉学科。这些学科都致力于数据分析的某个方面,因此它们有很多共性。数据挖掘就是建立在它们之上对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据[1]。不过并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。      二、空间数据挖掘技术由来      空间数据的采集、存储和处理等现代技术设备的迅速发展,使得空间数据的复杂性和数据急剧膨胀,远远超出了人们的破译能力。空间数据库是空间数据以其相关非空间数据的集合,是经验和教训的积累,无异于是一个巨大的宝藏。当空间数据库中的数据积累到一定程度的时,必然会反映出某些为人所感兴趣的规律。这些知识型规律隐含在数据深层,一般难以根据常规的空间技术方法获得,需要利用新的理论技术发现并为人所用[2]。      三、Web空间数据挖掘的技术和发展      空间数据挖掘是多学科和多种技术交叉综合的新领域,其挖掘方法以人工智能、专家系统、机器学习、数据库和统计等成熟技术为基础。下面介绍近年来出现的主要空间数据挖掘方法。   (一)空间分析方法   利用GIS的各种空间分析模型和空间操作对GIS数据库中的数据进行深加工,从而产生新的信息和知识。常用的空间分析方法有综合属性数据分析、拓扑分析、缓冲区分析、距离分析、叠置分析、地形分析、趋势面分析、预测分析等,可发现目标在空间上的相连、相邻和共生等关联规则,或发现目标之间的最短路径、最优路径等辅助决策知识。   (二)统计分析方法   统计分析一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性分析。统计方法有较强的理论基础,拥有大量成熟的算法。统计方法难以处理字符型数据,需要有领域知识和统计知识,一般由具有统计经验的领域专家来完成。   (三)归纳学习方法   归纳学习方法是从大量的经验数据中归纳制取一般的规则和模式,其大部分算法来源于机器学习领域,归纳学习的算法很多,如Michaski等的 AQ11,AQ15,洪家荣等的AE1,AE9,Hunt的CLS,Quinlan的ID3,C5.0等,其中最著名的是Quinlan提出的C5.0决策树算法。   (四)聚类与分类方法   聚类和分类方法按一定的距离或相似性系统将数据分成一系列相互区分的组。常用的经典聚类方法有Kmean,Kmeriod,ISO DATA等。分类和聚类都是对目标进行空间划分,划分的标准是类内差别最小,类间差别最大。分类和聚类的区别在于分类事先知道类别数和种类的典型特征,而聚类则事先不知道。   (五)探测性的数据分析方法   李德仁、邸凯昌等提出了探测性的数据分析(简称EDA)。EDA采用动态统计图形和动态链接窗口技术将数据及统计特征显示出来,可发现数据中非直观的数据特征及异常数据。EDA与空间分析相结合,构成探测性空间分析(exploratory spatial analysis,简称ESA)。EDA和ESA技术在数据挖掘中用于选取与问题领域相关的数据子集,并可初步发现隐含在数据中的某些特征和规律。   (六)神经网络方法   即通过大量神经元构成的网络来实现自适应非线性动态系统,并使其具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自适应等功能的方法;在空间数据挖掘中可用来

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档