基于信息熵的不确定性数据清理方法.docVIP

  • 4
  • 0
  • 约3.64千字
  • 约 6页
  • 2016-11-23 发布于北京
  • 举报

基于信息熵的不确定性数据清理方法.doc

基于信息熵的不确定性数据清理方法.doc

基于信息熵的不确定性数据清理方法   摘要:   针对不确定性数据中往往包含一些异常数据而导致相应的查询结果出现错误的问题,提出了一种基于信息熵的不确定性数据清理方法以减少异常数据并提高不确定性数据的质量。首先使用信息熵来度量数据的不确定度,然后结合统计学方法计算出不确定性数据的可信区间,最后去除那些不在可信区间内的数据。实验结果验证了该方法的高效性和有效性。   关键词:不确定性数据;数据清理;信息熵;不确定度;可信区间   中图分类号:TP392   文献标志码:A   0引言   随着数据采集和处理技术的发展,不确定性数据得到了广泛的重视[1]。在诸如数据集成、传感器网络、信息检索、移动对象跟踪等应用中,数据的不确定性普遍存在,它已经融入了各行各业[2]。但是不确定性数据众多的数据模型、多样的数据形态、丰富的查询类型、非同一般的概率维,也使得不确定性数据的相关研究充满挑战[3]。传统的数据管理技术无法有效地管理这些不确定性数据,因此激发了人们对不确定性数据管理的研究。   过去的几年中,不确定性数据的研究取得了较大的进展,可能世界模型被广泛地用于表示数据的不确定性[1-4]。该模型中,各元组的任一合法组合均可构成一个可能世界实例。基于该模型,不确定性数据库为每个元组添加一个相应的概率,每一个可能世界实例的概率就可以通过相关元组的概率计算得到。文献[5]提出了一种称为xrelation的不确定性数据库,能够简洁并高效地表示元组之间的不确定性。基于概率数据库进行查询处理,可返回结果元组及元组所对应的概率值。   然而,不确定性数据中经常包含一些异常数据(例如错误、缺失、不一致或者重复的数据),这些异常数据会降低查询结果的准确性,甚至使查询结果出现错误[6]。为了避免这类问题的产生,就需要对不确定性数据进行清理,旨在检测出数据中的异常情况,然后改正它们,从而提升数据质量[7]。   在不确定性数据清理方面,近年来已有许多研究工作。文献[6]提出了一种利用聚合约束来清理不确定性数据库的方法;文献[8]通过采样来修复数据库中违反函数依赖的数据;文献[9]给出了一种支持势约束的概率数据库的查询方法,它可以容易地扩展成为一种数据清理的方法。如果能够获得相应的约束条件,以上的方法都能够高效并正确的清理不确定性数据。但是在实际中,人们不一定能够获得数据清理所需的约束条件。在这种情况下,如何高效并正确地清理不确定性数据就变得十分困难[10]。   值得关注的是,信息论中,信息被认为是不确定性的减少[11]。基于此获得信息,可以消除部分的不确定性。为了描述事物的不确定性,基于信息熵的概念,针对离散随机变量可方便地得到最清楚的表述。因此,本文考虑在无约束条件的情况下,基于信息熵理论发现不确定性数据库中的错误数据并进行清理。首先利用信息熵计算出不确定性数据所包含的信息量大小,称为不确定度。然后根据中心极限定理计算出不确定性数据的期望,称为属性值正确标准。基于不确定度与属性值正确标准,可以得到不确定性数据的可信区间。最后,检测并删除那些不在可信区间的异常数据,从而实现不确定性数据的清理。   3不确定性数据的清理   当不确定性数据的数量足够大时,属性的取值满足固定的概率分布[12]。也就是说,当xrelation中元组数达到一定规模之后,其属性的取值应该属于以某个期望值μ为中心的范围之内,且这个期望μ可以通过数理统计的方法得到。基于不确定度及期望μ,可以计算出属性的可信区间。通过检测那些不在此可信区间内的数据,并删除这些数据,就可以实现不确定数据的清理。   5结语   本文基于信息熵理论,提出了一种高效的不确定性数据清理方法。通过多组数据的测试,验证了本文方法的可行和高效。然而,所采用的xrelation概率数据库仅仅能表示元组级不确定性,本文希望能够引入更高级的概率数据库,以便表示属性级别的不确定性,甚至是数据之间复杂关系。另一方   面,本文只关注了不在可信区间的异常数据,然而异常数据的类型众多,如何利用信息熵理论来清理其他类型的异常数据是将要开展的工作。   参考文献:   [1]周傲英, 金澈清, 王国仁, 等. 不确定性数据管理技术研究综述[J]. 计算机学报, 2009, 32(1): 1-16.   [2]PRAGATI P, PRATEEKSHA P, MINU C. Uncertain data algorithms and applications [J]. International Journal of Advanced Research in Computer Science and Software Engineering, 2012,2(7): 274-280.   [3]李建

文档评论(0)

1亿VIP精品文档

相关文档