时空聚类分析在Web数据挖掘中研究与应用.docVIP

时空聚类分析在Web数据挖掘中研究与应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
时空聚类分析在Web数据挖掘中研究与应用

时空聚类分析在Web数据挖掘中研究与应用   摘 要:时空聚类分析是时空数据挖掘领域近年来研究的热点问题,对于揭示时空要素的发展变化趋势、规律以及本质特征具有重要意义。目前,时空聚类分析的研究仍在初步,缺乏具有普适性的时空聚类分析方法。为此,本文针对国内水性漆行业的行业数据提出了一种时空一体化的时空聚类方法。该方法很好地顾及了时空数据的时空耦合、时空相关与时空异质特征,避免了过多人为主观因素的干扰,时空聚类结果具有较好的可靠性。   关键字:数据挖掘;Web数据挖掘;聚类分析;聚类算法   一、引言   随着计算机技术、数据库技术、网络技术的飞速发展,各种信息知识可以在网络上获得。网络在给人们带来便利的同时也带来了不少弊端,造成了知识的污染,面临信息的海洋,呼唤一种从数据海洋中去粗取精、去伪存真的技术来准确、快速地获取有用的、隐含的信息,在这种形势下,Web数据挖掘技术应运而生。   近年来,时空数据挖掘已受到国际学术界和工业界的广泛关注,时空信息的认知和数据模型的研究进展是时空数据挖掘研究的基础,时空数据挖掘的理论研究主要受到空间数据挖掘和时态数据挖掘研究的影响,并以经典的数据挖掘理论为基础,挖掘时空知识或规则。   时空聚类分析作为时空数据挖掘的一个主要研究内容,是计算机科学与地球信息科学领域交叉研究中的一个最前沿、最具挑战的研究课题。时空聚类分析旨在从时空数据库中发现具有相似特征的时空实体结合(即时空簇),亦是传统的聚类分析从空间域到时空域的进一步扩展。时空聚类在全球气候变化、公共卫生安全、地震检测分析以及犯罪热点分析等领域具有重要应用价值,有助于更好地发现和分析地理现象发展变化的趋势、规律与本质特征。   本文把时空聚类分析应用在Web数据挖掘中,具有很强的现实意义与理论价值。一方面,通过聚类挖掘可以找空间实体即水性漆生产商的地理分布规律,帮助决策者更快地找到所需的信息;另一方面,对行业数据重新组织,让相邻、相近的数据尽量编排在一块,可以提高访问速度,对于预测整个水性漆行业的发展动态有积极的意义。   二、国内外研究现状及分析   国内外学者已经针对时空聚类分析开展了初步的研究,现有的时空聚类方法主要包括时空扫描统计方法、基于密度的方法以及基于时空距离的方法。最近, Kisilevich[1] 等对时空聚类分析方法进行了较为系统的阐述。时空聚类分析研究虽然已经取得一定成果,但依然面临两方面难点: (1) 时空数据具有时空耦合的特点。 时空数据是空间维与时间维的有机组合, 空间数据与时序数据的一些性质并不能直接推广到时空域。 例如, 空间数据不存在过去、现在、将来的区别, 而时空数据却具有这种特性;(2) 时空数据具有时空相关性与时空异质性两个重要性质。 时空数据的分布在时间和空间上具有关联性, 也会随着时间和空间的变化而产生差异。 此外, 当前的时空聚类分析研究仍没有形成一套具有普适性的理论方法框架。   现有的时空聚类方法主要包括时空扫描统计方法、基于密度的方法以及基于时空距离的方法。 最近, Kisilevich 等对时空聚类分析方法进行了较为系统的阐述,其主要思想是采用一个预设的时空扫描窗口, 即由空间距离定义半径、时间间隔定义高度的圆柱体, 以每个时空实体为中心进行扫描, 借助统计检验的方法确定疾病爆发的聚集区域。 该方法一方面需要预先假定数据的概率分布模型, 且结果受扫描窗口的影响较大, 另一方面不能详细描述时空簇的位置和形状信息。最近, Pei 等发展了一种基于窗口邻近的时空聚类方法, 其主要思想是定义一个圆柱形的时空邻近域, 在每个时空邻域内区分聚集部分和噪声部分, 并采用 DBSCAN 密度相连的策略将聚集部分连接成时空簇。 该方法只能针对仅存在两种 Poisson 分布(簇与噪声) 的时空数据进行时空聚类操作, 且无法顾及时空实体的非空间属性。 基于时空距离的方法可以区分为两类, 一类是从时间、空间两个角度分别定义时空邻近实体; 另一类是综合定义时空耦合距离, 这类方法主要用于地震序列的时空聚集性发现, 在实际中时空属性的融合比较困难。   综上分析, 可以发现目前尚缺乏一种能够同时顾及时空实体的非空间属性和时空实体时空耦合特性的时空聚类方法。 为此, 下面将发展一种时空聚类分析的新策略。   三、时空聚类分析在Web数据挖掘中的研究与应用   1.研究目标:本课题通过在研究空间数据挖掘、XML 数据挖掘、时空数据挖掘基础上,对时空聚类的关键技术进行分析,设计出适合Web数据挖掘的时空聚类挖掘的算法并构建原型系统,实现对行业网站数据时空聚类挖掘。   2.研究内容:(1) 数据的聚集趋势估计,即判断数据能否进行聚类分析; (2) 聚类方法设计; (3) 聚类结果有效性评价。在地理空间中,时间和空间上

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档