网站大量收购独家精品文档,联系QQ:2885784924

基于密度的线数据分组算法的研究.pdfVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第17卷 第5 期 Vol. 17, No.5 2015 年5 月 May, 2015 基于密度的线数据分组算法研究 1,2 2* 1,2 2 2 2 2 魏海涛 ,杜云艳 ,许开辉 ,吴 笛 ,易嘉伟 ,莫 洋 ,刘 张 (1. 山东科技大学测绘科学与工程学院,青岛266510 ; 2. 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京 100101) 摘要:目前,地理空间数据面临着由于数据量膨胀和计算量高速增长而引起算法效率低的问题,采用“分而治之”的 数据分组策略提高运算效率已成为研究的热点。面向分布不均匀的线数据,本文提出了基于密度的线数据分组算 法(简称LGAD )。首先,算法通过查找高密度区提取样本线段,保证了分组算法的起点落到高密区;其次,考虑线 空间拓扑关系的复杂性,引用水平、垂直和夹角距离度量线段间距离,创建样本线段与其他线段的距离矩阵;最后, 以距离矩阵和最优选择方法实现数据负载均衡分组。实验结果显示,对数据分组和分组后数据进行线段聚类的2 个过程中,该算法体现了较好的时间优势,与串行计算相比,在分组数为2-12 时,平均比率达4.3 ,提高了应用的响 应速度,具有较好的实际意义。 关键词:分而治之;并行计算;分布不均匀;线数据分组;负载均衡 DOI:10.3724/SP.J. 1047.2015.00538 1 引言 术实现数据分组。Wang[16] 提出利用四叉树实现数 [17] 据分组,但数据均衡无法满足;赵春宇 提出的 随着数据量的增大,空间数据处理算法的执行 Hilbert 空间填充曲线的数据划分算法能较好地实 效率问题引起人们的关注。目前,常用的方法是结 现负载均衡,但可能将空间上距离较远的对象分到 合任务和数据,利用并行计算技术提高应用请求的 一组;利用R-tree[18] 的MBR 来近似表达空间对象, [1] 实现线对象分组,其分组效率高,但如果存在线数 响应速度 。例如,DBSCAN 算法是一个反复迭代 的过程,将任务分割成互不相干的子任务比较困 据长短不一、分布不均匀的情况,通过最小外包矩 [3] [19] 难 ,因此,利用数据分组并行方法提高的空间数据 形分组的效果并不理想 。 [3-5] 鉴此,本文提出基于密度的线数据分组方法。 处理效率成为重点研究问题之一 。 [6-9] 该方法包括密度查找样本线段和距离矩阵实现数 目前,针对数据分组算法的研究多基于点数据 , 而对于线数据,大数据量处理算法存在不可忽视的 据分组,从数据的负载均衡和结果的合并方面体现 效率问题,例如,Lee[10]提出的基于线段的轨迹聚类 了其优势,达到了提高计算效率的目的。 算法。在参数的选择和聚类过程中,由于扫描整个 数据集,导致计算效率低下,提高其计算效率有重 2 基于密度的线数据分组算法 大的实用价值。基于线数据的分组方法主要分为2 [11-15] 由于数据量大,使得线数据处理算法存在时间

您可能关注的文档

文档评论(0)

whx007 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档