基于XML分布式数据库DBSCAN分片方法探究.doc

基于XML分布式数据库DBSCAN分片方法探究.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于XML分布式数据库DBSCAN分片方法探究

基于XML分布式数据库DBSCAN分片方法探究摘要:XML分布式数据库可以解决不同数据源的异构问题,各个数据库的数据之间传输问题。在实际应用中,由于数据量大,人们提出了数据分片来减少系统响应时间。然而在查询过程中,不变化的分片方法无法适不断变化和增加的谓词。并且按照现有的分割方法,大型数据库会有大量的谓词或属性,那么分割的片数也将成指数式增长。该文采用一种DBSCAN分割方法来解决这些问题。 关键词:DBSCAN;分布式数据库 中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)07-1465-02 Study of DBSCAN Fragmentation Method Based on XML-Based Distributed Database FANG Ming, LEI Yang (School of Computer, Xi’an Shiyou University, Xi’an 710065, China) Abstract: XML-based distributed database can solve problems caused by and architecture and transmission between different data sources. In practice, some offer fragmentation to reduce response time. However, In querying process, unchangeable fragment method can?t adapt to changing and increasing predicates. Moreover, according to traditional fragment method, large scale database may create too many predicates and attributes and the number of fragment will increase rapidly. This article uses DBSCAN fragmentation method to solve problems above. Key words: DBSCAN; distributed database 1概述 由于XML分布式数据库可有效解决数据源异构问题并且大量半结构化数据以XML形式存储,XML分布式数据库逐渐成为分布式数据库的一个发展方向。对于关系型分布式数据库中有研究采用导出分片,对于XML分布式数据库有研究采用谓词构造初级水平分片方法或基于邻接矩阵初级水平分片方法。对于这些分片方式,虽然起到了加快查询速度的要求,但是在长期的使用过程中,导出分片还是初级垂直分片都没有反馈机制,不能满足不断出现的新谓词的要求,并且对于一些只用过一次的谓词,这些划分方法也会使用这些谓词对数据库进行划分,这对数据库带来不必要的冗余。本文采取并改进的DBSCAN方法本是数据挖掘中的聚类方法。DBSCAN方法可识别噪声,所以对于只用过一次的谓词,这种划分方法可以很好的识别谓词的模式并归类。 2相关定义 定义1简单谓词。给定一个关系R(A1,A2…An),Aj是定义在域Dj上的属性。定义于关系R上的简单谓词pj即:AiθValue。θ∈{=,, , },Value∈Dj。 定义2核心对象[4]。给定ε,MinPts,若对象p的ε邻域ε(p)包含的对象的个数N MinPts,则称p为核心对象。 定义3簇概率核心对象。给定ε,MinPts,给定DBSCAN算法聚集的簇C。簇概率中心对象p(C)为使其与其他核心对象相比出现次数最多的核心对象。 定义4簇密度可达。点p从簇C密度可达,若至少有一点q∈C,从q直接可达p。 3传统分割方法的问题 对比动态的查询谓词来说,传统分布式数据库主要面对三个问题:谓词过多、分层汇总、谓词更新。 3.1传统分割方法的谓词过多问题 对数据库的分割的目的在于减少对无关数据的搜索与统计。而然分割的过多又使得必须查询多个分片并且汇总起来繁琐。DBSCAN方法对噪声不敏感,可以过滤掉使用极低的谓词。DBSCAN通过检查每个谓词的临域来搜索簇,找到所有的密度可达的谓词,并将可以合并的簇进行合并。未在各个簇内的谓词被标记为噪声。接下来找到各个簇的簇概率核心对象,并使用COM-MIN方法生成小项谓词,根据此谓词对分布式数据库进行分割。注意到谓词之间的维度为1,所以MinPts可以默认为1,只调节临域ε。 3.2传统分割方法的数

文档评论(0)

docman126 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档