- 1、本文档共59页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
不确定数据集上skyline查询处理算法研究
不确定数据集上的Skyline查询处理算法研究 摘要
【摘要】
数据本身存在不确定性、采集的随机性及不精确性,如在地质测量、天文观
测、气象、传感网络、移动对象搜索和数据集成等实际应用中,由于复杂的外界
因素的影响使得采集到的数据不确定、不完整和不精确。对这些不确定的海量数
据集进行挖掘时,常规的方法是通过数据清洗、集成等预处理后再进行挖掘。然
而,经过加工后的数据通常丢失了大量的原始信息,从而导致挖掘效果难于满足
需求。近年来,出现了一种新型数据集.不确定数据集,即将源数据中的不确定
性用概率(或置信度)表达。不确定数据集上的数据挖掘也随之成为近年来的研
究热点。其中不确定数据集上的Skyline挖掘是一个重要的研究领域。尽管Skyline
挖掘获得了广泛的研究,但由于现有的方法没有将数据集的不确定性考虑到计算
模型中,困面玉法实现在该粪数据集上进红sk舛in曼挖掘。经过广泛细致的研究
工作后,本文提出了有效的方法来解决该类问题。
通过对现有的不确定数据集上Skyline及Top.k查询算法的研究,结合了数
据流的特性,本文提岖全堑的题王丕煎定数据垒上胸二舞国b屿血墟查询维控.
篡法,.蒡基于真实数据及合成数据进行了大量的实验验证,试验结果表明本文设
计的算法能高效且有效地在不确定数据集上进行Skyline挖掘。本文的主要研究
成果如下.——、
indexed
1)针对稀疏实例分布数据集,提出了基于多誓姻格素研饷GIKS(Grid
k-Skyline)算法。该算法的核心思想是利用网格索引进行自底向上的最优化访
问,即把数据空间分割为多个易于处理的小区域,利用网格的优势分而治之,
Distribution
Map)检索结构在空间遍历过程中实现信息共享,大幅降低时间
复杂度。
2)针对密集实例分布数据集,提出了基于分层树索引的BRKS方法。当在实例
密度很大的数据集上进行k-Skyline查询时,本文又提出了一种自顶向下的
and
BRKS(Boundingk-Skyline)方法,它以均值评估为基础,利用分
Refining
层越进行限界求精,从而渐进地计算对象的Skyline概率。
3)将不确定数据集扩展到数据流上,提出了概警麴据流的skY!i堡查塑丝塑歹
,法.对概率数据流上的Skyline查询问题进行了深入研究,并基于“可能世
界”语义对概率数据流上的Skyline查询计算问题首次进行了建模。
4)针对概率数据流上的Skyline查询处理,本文设计了一种高效的查询处理算
overProbabilistieData
法SKY-PDS(Skyline Stream)。与确定型数据流上的
不确定数据集上的Skyline查询处理算法研究 摘要
早地淘汰那些不再有机会加入Skyline结果集的对象,以减少内存开销?②
如何高效地判定对象的状态(是否作为Skyline对象输出),即如何减少对“支
配关系的检测次数以便降低CPU负荷?针对以上两个基本问题,本文先
后提出了概率定界、逐步求精等优化措施对算法从空间与时间上进行了系统
地优化。缜密的理论分析和详尽的实验对比表明,SKY-PDS算法在空间与时
间上都具有较高的性能,且算法具备良好的扩展性。
5)对于本文设计的多个算法均进行了详尽的试验验证,试验数据来源于两方
面:真实NBA数据以及通过标准数据生成算法产生的不同分布特性的数据
集:独立分布、相关分布及反相关分布数据集。对于每组试验结果都进行了
详细的分析。
不确定数据集, 概率数据流, 网格索引, 多标准决策
关键词:Skyline,
中图法分类号:TP312
[Abstract]
In real
the inherent
文档评论(0)