网站大量收购独家精品文档,联系QQ:2885784924

不确定数据的世系管理和相似性查询计算机软件与理论专业论文.docxVIP

不确定数据的世系管理和相似性查询计算机软件与理论专业论文.docx

  1. 1、本文档共124页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
不确定数据的世系管理和相似性查询计算机软件与理论专业论文

摘 摘 要 不确定性数据在很多应用中广泛出现,例如经济、军事、物流、金融、电信等, 其表现形式多种多样,包括关系型数据、半结构化数据、图数据、流数据、移动对 象数据以及无结构化的Web数据等。目前,根据应用的特点与数据形式的多样性, 已经出现了多种不确定数据模型,这些模型的核心思想都源自可能世界模型。该模 型从一个不确定的数据源演化出诸多确定性的可能世界实例,所有实例的概率之 和等于1。尽管可以针对各个实例单独进行查询处理,合并中间结果并获取最终结 果,但是可能世界实例的数量远大于不确定数据库的规模,从而导致可能世界模型 在实践应用中并不可行。因此必须采用排序、剪枝等启发式技术进行优化处理以提 高查询处理效率。 针对不确定数据管理的挑战,本文主要考察不确定数据查询处理的优化。主要 工作分为两部分:不确定数据世系管理和相似性查询。具体的,针对数据的不确定 性,研究如何通过不确定数据的世系追踪数据不确定性的来源和大小,以及对不确 定性集合数据进行相似度评价,最后提出了不确定数据流上ER-topk查询的精确 算法。本文的主要贡献如下: ·首先研究了如何利用数据世系追踪数据不确定性的来源和大小。基于P胛一 tree数据结构,近似描述不确定数据的How世系,避免了追踪数据演化的 中间结果,同时也避免了运用可能世界模型对不确定性数据进行建模;基于 P胛一tree,可以追踪目标数据的不确定性来源,以及对目标数据的不确定性 大小进行评价。 ·针对不确定集合,定义了不确定性集合的期望相似度算子,提出了不确定集 合期望相似度的精确和近似算法。具体的,运用动态规划方法在多项式时间 内给出不确定集合期望相似度的精确算法,而不必扩展可能世界实例;考虑 到精确算法需要耗费大量的时间和空间,为克服可扩展性差的缺点,我们运 用Monte-Carlo方法在线性时间内近似计算不确定集合的期望相似度。 ·考虑到不确定集合相似度的多样性,又评价了不确定性集合的概率阈值相似 度。给出了不确定集合的概率阈值相似度算子的定义,以及精确和近似算法。 运用动态规划方法在多项式时间内给出不确定集合概率阂值相似度的精确计 算过程;同时考虑到概率阈值相似度的计算结果是一个概率值,当用户给定 VIII 表目录 表目录 相似度的阈值,利用尾概率不等式提出了一个线性时间内的剪枝规则,大大 加快了精确解的计算过程;考虑到没有被剪枝的不确定集合的精确算法需要 耗费大量的时间和空间,我们运用Monte—Carlo方法近似计算不确定集合的 概率阈值相似度。 ·基于界标模型提出了不确定数据流响应ER-topk查询的精确算法,该方案将 所有不断到来的元组分成两组,一组包含ER-topk查询的候选结果,剩下的 元组包含在另外一组中,我们分别用数据结构domGraph和probTree来维护 这两类元组;基于期望的线性性,我们避免了扩展所有可能世界实例,在次 线性时间内给出查询的结果。 本文研究了不确定数据的查询处理,主要工作包括不确定数据世系管理和不确 定数据的相似性查询,通过大量的实验验证了提出算法的效率和可扩展性等。 关键词:不确定数据;数据世系;相似性查询;期望相似度:概率阈值相似度;数 据流;top-k查询;相似度连接查询; 分类号:TP311 IX AbstractAppearing Abstract Appearing widely in various fields,inclusive of economy,military,logistic,fi— nance and telecommunication,et a1.,uncertain data has many different styles,such 38 relational data,semi—structure data,streaming data,and moving objects.accord— ing to scenarios and data characteristics,tens of data models have been developed, stemming from the core possible world model that contmns a huge number of the possible world instances with the sum of probabilities equal to 1.However,the nUN— ber of the possible world instances is far greater than the volume of the uncertain database,making it infeasible to com

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档