- 5
- 0
- 约1.47万字
- 约 16页
- 2016-12-10 发布于江苏
- 举报
一个关于数据清理的相似性连接处理的早期研究
摘要
基于相似性的数据清理包括“关闭”的元组的识别,在那里选择合适的域和应用程序功能可以使用各种相似函数去评估数据的相似性。有效的实施这种相似连接的当前方法被紧紧地绑定到所选择的相似函数上。在本文中,我们提出一个新的原始运算符根据各种流行的连接字符串功能的相似性和超越的概念相似度的文本相似性可以用作一个基础来实现相似。 然后我们提出此运算符的有效实现。实验评价中使用真实数据集,,而且往往远比以前的自定义实现特定功能的相似性。填充和维护数据仓库和数据集中的数据存储库一个非常重要的数据清洗操作“加入”类似的数据考虑一个销售数据仓库主产品目录和客户登记记录在这些情况下,最好执行相似的联接。当前方法利用相似属性值之间加入数据之间的关系,例如用于测量相似之处。然而,没有一个相似的字符串函数是已知的整体最佳功能的相似性,而选择通常取决于应用程序域[10,13]请参阅6节。R和S关于θ的连接在连接断定θ是f R.A, S.A α,因为有一个相似函数f和一个门槛α。虽然相似连接也许通过用户定义函数UDFs被定义连接谓词表示在结构化查询语言中,但是在执行跨产品后,评价很低效,因为数据库系统通常被迫仅适用于基于联接谓词。[1、8、9]。一个通用数据清洗平台支持基础原始的或具有挑战性的选项,我们建议SSJoin运算符用作基础的原始并显示可用于支持基于几个字符
原创力文档

文档评论(0)