1个关于数据清理的相似性连接处理的早期研究.docVIP

下载本文档

5
0
约2万字
约 17页
2019-02-24 发布于江苏
举报
版权申诉

1个关于数据清理的相似性连接处理的早期研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一个关于数据清理的相似性连接处理的早期研究摘要基于相似性的数据清理包括“关闭”的元组的识别，在那里选择合适的域和应用程序功能可以使用各种相似函数去评估数据的相似性。有效的实施这种相似连接的当前方法被紧紧地绑定到所选择的相似函数上。在本文中，我们提出一个新的原始运算符根据各种流行的连接字符串功能的相似性和超越的概念相似度的文本相似性可以用作一个基础来实现相似连接。然后我们提出此运算符的有效实现。在实验评价中我们使用真实数据集，通过实验，我们看到，使用我们的运算符的相似性连接的执行是很优越的，而且往往远比以前的自定义实现特定功能的相似性好得多。 1.简介数据清理在填充和维护数据仓库和数据集中的数据存储库中是一个必不可少的步骤。一个非常重要的数据清洗操作是“加入”类似的数据。例如：考虑一个销售数据仓库，由于因为键入错误，公约差异等而产生的各种数据错误，会导致在销售记录中的产品名称，顾客名称不能正确的与主产品目录和客户登记记录等相匹配。在这些情况下，最好执行相似的联接。例如：我们可能分别的关联两个产品，顾客信息中，如果他们的部分描述是分别地相似，那么顾客名字和地址的相似度就高。相似性数据连接问题在记录联系环境中已经计划好了，例如：[6、7]，找出近似重复数据库中的实体例如：[5、9、11]。一个特定记录的识别最好的近似匹配域一个记录参考集[4]，相似性连接是其中许多技术构建的基本操作。当前方法利用相似属性值之间加入数据之间的关系，例如：在上面的例子中，部分描述是相似的。各种字符串相似函数已经被考虑在内，例如：编辑距离，accard相似，余弦相似和广义编辑距离[4]，用于测量相似之处。然而，没有一个相似的字符串函数是已知的整体最佳功能的相似性函数，而选择通常取决于应用程序域[10，13]请参阅6节。例如：相同产品的一个有效的相似函数的特征基于他们的局部特征，但是即使是小的拼写错误也是不同于相同的街道地址错误，因为即使街道号码有小的不同也会有决定性的错误，例如：“148th Ave”和“147th Ave”。两个关系R和S都包含一个列A的相似连接是R和S关于θ的连接在连接断定θ是f (R.A, S.A ) α，因为有一个相似函数f和一个门槛α。虽然相似连接也许通过用户定义函数(UDFs)被定义连接谓词表示在结构化查询语言中，但是在执行跨产品后，评价很低效，因为数据库系统通常被迫仅适用于基于UDF联接谓词。因此，已经开发专门的技术区有小的评估相似性连接。不过，所有的这些方法被自定义到特定的相似函数中。例如：[1、8、9]。一个通用数据清洗平台能够有效地支持哪些面对不切实际的实施和维护有效地技术而是用的各种相似性函数。支持基础原始的或具有挑战性的选项，那可以被当做一个构造块而去实现多元化的相似性概念。在本文中，我们建议SSJoin运算符用作基础的原始并显示可用于支持基于几个字符串相似的相似性联接功能。例如：编辑相似性，个采样点相似，广义编辑相似，汉明距离， HYPERLINK /?FORM=BNGCN \l soundex \o 点击获取释义 soundex等，以及基于cooccurrences的相似。在定义SSJoin运算符，我们利用设置重叠的观察能有效支持多种功能的相似性函数[13]。SSJoin运算符比较的值基于“设置”与他们每一个的链接和显示构造。因为稍后我们将显示，这个逻辑运算符的设计和实施，充分利用现有的关系运算符，并帮助定义丰富的选择空间，优化查询涉及的相似加入。 SSJoin——表示集的相似性连接——适合用于两个都包含列A和B的关系R和S。再元组中，一组分享相同值R.A值的R.B值构成R.A的相应的集合。SSJoin字符组返回几组不同的的值对R.A,S.A，如果几组相应的R[B]和S[B]的值对的重叠式高于一个使用者指定的阈值，我们允许加权的和不加权的的版本。作为一个例子，考虑两个关系R [国家，城市]和S [国家，城市]。设置A=状态和B =城市，SSJoin运算符返回R.state, S.state值对，如果每个国家所发生的城市之间的重叠是超过阈值。因此，它可能会返回的对（华盛顿，WA）和（“威斯康星”，“无线”），因为这些群体内的城市设置重叠显著。第3节中，各种相似函数依赖相似连接能够被铸造成一个利用SSJoin运营商的设置。然后，我们为SSJoin操作符开发高效的实现方法。我们首先表明，SSJoin运营商在结构化查询语言的等连接中能够被实现。我们进一步的优化脚本的实现执行，在那里不得不更高的基于两个集的高度重叠和两个集的更小子集的重叠的执行实现。例如：如果有两组分别包含五个元素的集合，要求他们两个集合至少有四组元素是相同的，然后以2为大小的子集有非零的重叠。基于这一观察，我们显著地减少候选组R.A，