有质量保证的清洗不确定数据.docVIP

  • 4
  • 0
  • 约2.37万字
  • 约 35页
  • 2016-11-26 发布于重庆
  • 举报
有质量保证的清洗不确定数据

有质量保证的清洗不确定数据 内容摘要 不确定或不精确的数据在应用中普遍存在,像基于位置的服务,传感器监控及数据的采集和整合。对于这些应用,概率数据库可以被用来存储不确定的数据,提供的查询设施用于产生统计置信度。假设一个有限的资源可用来“清洗”数据库(例如,通过探测一些传感器数据值来获得他们最新的值),我们要解决清洗不确定对象集的选择问题,为了在查询答案时达到最好的质量改善。为此,我们提出PWS-quality指标,这是一个普遍的措施,是在可能世界的语义下量化查询答案的模糊性。我们研究PWS-quality指标如何被有效的评价,主要有两个等级:(1)审查元组与其他元组之间相互独立的可满足性的查询(例如,范围查询);(2)需要的一系列相关联的元组知识的查询(如最大查询)。然后,我们提出了一个多项式时间的解决方案,以达到在PWS-quality指标中最优的改善。也将提出其他快速启发式算法。在实验中,表现出实际和综合的数据集,表明该PWS-quality标准的评估可以很快,而且我们的清洗算法提供了一个高效率的最佳解决方案。据我们所知,为概率数据库开发质量标准是第一个工作,然后探讨这个标准如何用于数据清洗。 关键词:不确定数据;数据库;PWS-quality指标;质量改善;清洗算法 1 导言 传统上,数据库假定数据存储的值是准确或精确的。但是,在许多新兴的应用程序中,数据库本身存在不确定性。考虑一个栖息地监测系统,其中的数据,如温度,湿度和风速是从传感器获得的。由于传感器性质的不完善,所获得的数据通常含有噪声污染。再举一个例子,在全球定位系统(GPS)中,定位值的收集有一些测量误差。在生物特征数据库,存储的特征向量的属性值是不准确的。综合与记录联动工具也会使置信度的值与根据匹配质量输出的元组联系在一起。为了应付处理不确定性日益增长的需要,研究人员最近提出将其不确定性看作一个“一等公民”, 通过一个“不确定数据库”管理数据。 在这些数据库中,查询可以进行评估,以产生有概率保证的不精确的答案。查询答案的模糊性构成了查询质量的概念,它描述了查询答案是“多么好”。在本论文中,我们就如何通过减少模糊数据库的方法来提高查询质量的问题进行分析。不精确的数据可以以不同的方式得到缓解。例如,在传感器监测中的应用,数据库系统是用来存储在一个地理区域部署的成千上万个传感器的当前值。由于资源有限,系统可能无法捕捉到在每一个时间点的传感器信息;相反,它使用存储的值来估计当前传感器的读数。为了减少估计的误差,系统可以“探测”传感器,这是对系统最新估值的响应。再举一个例子,考虑一个电影评级的数据库,是一个基于把IMDB电影信息和从Netflix挑战中得到的用户评级相融合的数据库。该数据库包含了每部电影的用户评级,可描绘出一个概率分布表。澄清这些等级的不确定性可以通过联系各自的用户来 “消毒”。由此产生的数据库,不确定性比以前少,而且可以提供更高质量的服务。 理想的情况下,整个数据库都应该被清洗。事实上,这可能是不可行的,因为清洗数据是很昂贵的。例如,一个传感器监测系统,可能只探测传感器的一小部分,部分原因是由于无线网络带宽有限,部分是由于传感装置稀缺的电池电源。至于电影评级数据库,困难的可能是验证电影评级中涉及的所有的用户评级。一般来说,清洗操作是受限制的,例如,通过一个固定的“预算”,它描述了可用于投资清洗数据的最大努力量。对于一个传感器监测系统的清洗预算,可以是传感器探测使用的最大带宽量。对于电影评级数据库,这样的预算可以是考虑验证电影评级需要工时的最大数值。 在本论文中,我们解决有限的预算下更好的查询或服务质量清洗不确定数据问题。 表1 不确定的数据库实例 表2 在表1中进行最大查询的结果 在概率结果的基础上,为捕捉一个查询结果的模糊程度,可以定义一个 “质量分数”的实数值。例如,在最大查询的查询结果(见表2)分数为-1.73(根据我们的质量指标)。假设表1是部分清洗(例如,通过咨询公司的有关产品的实际价格)。表3显示了一种可能的情形,其中不确定性与x -元组相关的a和c都被删除。在此表中,每一个a和c只有一个元组存在,这个元组的存在概论等于1。最大查询的新结果显示在表4,具有较低的模糊性,或得出了一个改进的质量分数-0.97。在极端情况下,如果所有的x -元组被清洗过,质量分数最高(我们的质量标准值为0)。 表3 对表1部分清洁的实例 表4 对表3进行最大查询的结果 这样的查询质量标准应该如何定义?尽管之前提出一些质量措施,但他们要么提供特定的查询,要么没有为概率数据库的使用做设计。为了解决这些问题,我们提出了PWS-quality指标。这个度量标准提供了一个查询概率数据库的查询质量(即可以被任何查询使用)的通用方法。它实际上是一

文档评论(0)

1亿VIP精品文档

相关文档