- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据集成中的不确定性问题
孙 辉
1、引言
数据管理中的不确定问题(uncertainty )其实并不是一个新问题,早在十几年前的论文中就对此有所提
及,例如上世纪八十年代末开始出现的概率数据库(probabilistic database )研究[1,2,3] ,这一研究认为元组在
数据库中的存在具有不确定性、属性值具有不确定性、查询应答也具有不确定性。但是,一直以来,人们对
不确定性问题认识不足,这也决定了人们对待不确定数据管理的态度,很多研究工作虽然遇到了不确定性问
题,但往往采取传统的“去除不确定性”方法避开对不确定数据的管理。
近两年来,不确定性问题逐渐引起了人们的广泛关注和兴趣,人们开始承认数据不确定性的本质,VLDB ,
SIGMOD 等数据库领域重要国际会议上相继出现了这方面的相关论文,VLDB2007 上还专门举办了不确定数
据管理的 workshop 。
数据管理中的不确定性问题之所以引起人们的普遍重视,成为一个新的研究焦点,主要下面几个方面的
[1,4]
原因 :
第一,应用的需要。随着计算机网络的飞速发展和信息化的推进,全球的数据量正在以指数的趋势迅猛
增长,不断增长的数据对数据管理提出很多新问题,新应用也不断涌现,有些应用需要对不确定数据进行管
理。
数据集成(Data Integration )是不确定数据管理最重要的应用[5] 。1996 年,Alon Halevy等人在VLDB 国际
会议上发表题为《Querying Heterogeneous Information Sources using Source Descriptions》[]的论文,这篇文章
2006 年被评为VLDB 十年最佳论文,文中提出一个数据集成系统——Information Manifold ,Information
Manifold和其他相关研究极大地促进了数据集成的发展,并导致了一系列数据集成系统商业产品的诞生。过
去十几年的时间内,数据集成一直是数据管理领域的研究热点,相关方面的研究取得了很大进展。目前,数
据集成发展到一个新的阶段,不确定性和数据血统(data lineage )问题开始引起研究者的注意[5] :从本质上
说,数据集成系统就是管理多个数据源的数据。来自外部数据源的数据是不确定的,数据处理过程也会产生
一些不确定的结果,这是数据集成系统的两个重要特点。如果数据库系统能够为不确定数据以及它们的血统
进行建模和处理,那么传统数据库系统与数据集成系统差别也就几乎不存在了。
近几年开始兴起的数据空间(dataspace )研究[6]对也对不确定数据管理提出很高的要求。数据空间定义
为一个实体所拥有的所有数据的集合。数据空间与实体一一对应,数据具有时空特性,其空间特性表现在数
据可以来自多个分布的数据源;时间特性表现在数据空间的不断演化。数据空间本质上是数据集成问题,数
据集成中不确定性问题数据空间中同样存在。除此之外,数据源不确定性是数据空间自身的主要特征之一,
主要包括三个方面:数据源的未知性、数据源位置的不确定性、数据内容的不确定性。由于数据源分布在多
台计算机上。这些数据源的物理位置和逻辑位置往往是不确定的,当用户不清楚数据源或者没有提供时,数
据空间有责任发现和探测数据源的所在,以此作为提供其他服务的基础。数据源的不确定性给数据空间带来
了新的挑战。
第二,数据的需要。当今数据管理系统所要面对的数据已经不再局限于确定性的企业数据,而要处理很
多非传统方式产生的数据,这些数据往往是不准确的,具有不确定性的本质。例如,信息抽取系统从文本中
自动抽取的数据通常是不准确的;Google Base ,Flickr 等系统中收集的大众数据具有不确定性,因为在这些
系统中,人们可以随心所欲解释自己的数据;位置信息服务(Location-Based Service )中管理的位置信息是
不确定的,因为对象的位置是不断变化的,数据库中保存的位置信息不一定是实时的;传感器(sensor )收
集的描述物理世界的数据也是不准确的,这是由 sensor 网络的本质决定的;日益普及 RFID 电子标签数据也
具有不确定性,因为电子标签的识别存在错误率。数据的不确定性本质要求我们对不确定性进行建模和管理。
第三,数据库技术的发展推动了不确定数据管理
您可能关注的文档
最近下载
- 家政(整理收纳师)职业技能知识考试题及答案 .pdf VIP
- 2025年全国统一高考物理试卷(新课标ⅰ).doc VIP
- 1.2 空间向量基本定理(第二课时)教学设计-2024-2025学年高二上学期数学人教A版(2019)选择性必修第一册.docx VIP
- 2022年版数学课程标准新课标考试题库及答案5.docx VIP
- 锅炉安装记录文本表.doc VIP
- 【高考真题】全国2024年统一高考物理真题试卷(新课标)附解析.docx VIP
- 中国美学史第五章隋唐美学.ppt VIP
- 施耐德LC1D系列接触器(选型表).docx VIP
- 灵韵数学-一种教学风格实践及追求.doc VIP
- 小学二年级上册乘法应用题.pdf VIP
文档评论(0)