- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
空间关联规则增量维护
空间关联规则增量维护
摘要:
为了得到有趣且有效的空间关联规则通常需要多次执行挖掘操作,可以使用增量维护算法来提高挖掘效率。然而,能够直接使用空间数据的关联规则增量更新算法尚属空白。为解决这一问题,对挖掘阈值改变和空间数据集更新后通过筛选或增量挖掘等方法实现规则维护的策略进行了分析,并提出适用于支持度阈值减小和空间图层增加这两类情况的增量挖掘算法——ISA。ISA算法不依赖于空间事务表的构建与更新,可以直接使用空间图层作为输入数据。在基于实际数据的实验中,采用ISA算法所得结果与类Apriori算法一致,耗时则相对缩短20.0%至71.0%;此外,对1372772条规则进行了基于筛选的更新,耗时低于0.1s。实验结果表明,所提出的空间关联规则增量维护策略和算法是可行、正确且高效的。
关键词:
空间数据;关联规则;增量更新;空间分析;数据挖掘
0引言
?? 空间关联规则挖掘是一种带有探索性和时效性的知识发现任务:一方面,为了得到较为理想的挖掘结果可能需要尝试多种挖掘阈值;另一方面,随着时间的推移,空间数据要不断进行更新,对更新后的数据重新进行挖掘才能保证结果的时效性。显然,为了得到有趣且有效的知识,往往需要采用接近的阈值对部分相同的数据进行多次挖掘。
由于空间关联规则挖掘依赖于复杂度较高的空间分析操作,多次执行挖掘算法总代价很大,在已有初步的挖掘结果时可以用增量维护算法取代挖掘算法以提高效率。然而,已有的增量式算法大多关注的是如何应对事务表中记录、字段的增删以及挖掘阈值的变化[1-10],解决的是传统关联规则而不是空间关联规则的更新问题;文献[11-12]分析了时态关联规则以及空间同位模式的增量更问题,同样仅具有参考意义;文献[13]针对空间事务表中记录追加问题提出一种空间关联规则增量更新算法,但该算法难以处理基于空间分析的挖掘算法的挖掘结果,因为这类算法不依赖于空间事务表的构建与更新[14-15];目前能够直接使用矢量及栅格等常见空间数据类型[16],同时考虑了数据变化和阈值变化的空间关联规则增量更新算法尚属空白。为解决这一具有实用价值的问题,本文对文献[17]中直接从空间图层中提取关联规则的算法进行了改进,提出增量挖掘算法——ISA(Incremental Spatial Apriori)。下面首先对其原理进行介绍。
1增量维护策略
1.1阈值的变化
最小支持度阈值sup_min和最小置信度阈值conf_min是空间关联规则挖掘中的两个基本参数。其中,sup_min对整个挖掘过程都极为重要,因为其取值决定着频繁谓词集的内容与数量,进而限定了可能提取出的关联规则的范畴;相对地,conf_min取值不会对频繁谓词集提取阶段造成影响,但实际提取出的规则的内容与数量是由该参数决定的。
首先考虑sup_min变化的情况。问题描述为:假定挖掘对象不变,已知sup_min取s时的频繁谓词集为f,如何对f进行更新得到sup_min取s′时的频繁谓词集 f′。根据s与s′的关系,可以分为以下3种情况[3]:
1)当s′=s时, f′=f;
2)s′s时, f′是f的子集,只需要将f中支持度小于s′的谓词集剔除即可得到 f′;
3)当s′c以及c′ 对于同时发生图层的增添和删除的情况,原则上应该先针对删除问题对频繁谓词集进行更新,这样可以将不必要的图层排除,减少针对图层增加的增量式挖掘耗时。
2增量式挖掘算法——ISA
当支持度减小或图层增加时必须通过增量式挖掘才能完成结果更新任务,下面给出适用于这两种情况的挖掘算法——ISA(Incremental Spatial Apriori):
3实验与分析
3.1实验数据
本文选用加利福尼亚州资源保护局(California Department of Conservation)提供的阿拉米达县(Alameda County,见图1)1984到2002年的10幅覆被分类图作为实验数据,这些分类图记录着7种覆被在偶数年份中的分布情况。为进行关联规则挖掘,依据覆被类型对分类图进行了分割,分割结果以年份加类别缩写命名,采用栅格格式存储。经过以上处理总共得到10组(每组7个,共70个)分辨率为20m,高度和宽度分别为2545和3939像素的栅格图层。
3.2实验方案
本文实验主要包括两部分,分别对支持度变化和数据变化这两种情况对下增量挖掘算法进行检验。
第一部分的目的是对比支持度发生变化的情况下ISA算法与类Apriori算法的挖掘结果与性能。由于ISA算法依赖于已有挖掘结果,故在对比实验之前先取sup_min为10-1用类Apriori算法进行了规则挖掘。之后,依次取10-
您可能关注的文档
最近下载
- 养老院门卫管理制度.pdf VIP
- 电力设施保护条例实施细则.pdf VIP
- 统编语文三年级上册第七单元《口语交际:身边的“小事” 》.pptx VIP
- 2024年中央纪委国家监委驻中国邮政集团有限公司招聘笔试参考题库附带答案详解.pdf VIP
- 《大学生创新创业基础》 第六章 市场调查与营销策略.pptx
- 建筑防水工程施工质量监理实施细则hg.doc VIP
- 环境材料概论 课件全套 第1--9章 绪论、吸附材料 ---环境材料的绿色设计.pptx
- 中职英语英语教学计划.docx VIP
- HGT2226-2019普通工业沉淀碳酸钙.pdf VIP
- 3肖仰华-大规模知识图谱构建与应用.pdf VIP
文档评论(0)