关于数据源依赖关系的信息评价方法研究.pdf

关于数据源依赖关系的信息评价方法研究.pdf

摘 要 每一个网站(又称为数据源)都会提供一些数据值集合,用来反映事实信息,例如 一个网上书店,它会提供很多书的信息,包括作者、书名、出版社和书的价格等。那么 这些数据值就对应着一个集合,然而,事实和真相之间没有直接的关系。“事实”确实存 在,也有可能不存在。而“真相”一定存在并且存在于“事实”的背后,“事实”是可以迷惑 人的。不同的数据源通常会提供一些相互冲突的数据值,哪些值刁’是最可靠的值呢,为 了提供给用户高质量的数据值,关键是数据集成系统能够解决数据冲突问题,并能够提 取出正确的数据值。 通常我们认为正确的数据值会被多数的数据源提供,而提供错误数据值的数据源相 对是少的。依据这一观点,我们利用选票算法,把被最多的数据源提供的数据值作为正 确的数据值,但是一个数据源提供的值无论正确与否,都会被很多其它的数据源复制。 在这样一个数据信息化时代,提取准确的数据就变的很棘手。因此真值发现问题受到了 日益广泛的关注。本文给出了实现数据源分类,数据冲突处理的具体实现策略,详细描 述了捕获数据源提供的数据值的变化特征,辨别数据源的类型,以及观察数据值之间的 相似性关系等一系列逻辑结构,来准确的查找特定对象的可靠数据值。 关键词:数据源;数据值;数据集成系统;真值;选票算法 Abstract datasourceswill usedtoreflecttheinfomationofa Every providemanydata,which asanonline will alotof bookstore,it f-act,such proVide panicular is the andthe ofthebook.ThentheseValues author,title,the including press price thefactsandthe toadata isnodirectrelationsbetween set,howeVer,there coHesponding existinthe is truth.”Facts”does notexist.And”truth”must exist,andmaV f.acts,facts willoRen some sometime.Dif俺rentdatasources connictingValues, misleading proVide 、Vhichis ordertoof!I、erusersthe ofthedata isthedata reliable,in highquality Value,thekey cansolVedata toextractthe Values. managementapplications connictingprob

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档