面向依赖型数据源的Deep+Web数据融合技术的研究.pdf

下载文档 降价啦

7
0
约16.76万字
约 79页
2015-11-02 发布于安徽
举报
版权申诉
保障服务

面向依赖型数据源的Deep+Web数据融合技术的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

面向依赖型数据源的Deep Web 数据融合技术研究中文摘要面向依赖型数据源的Deep Web 数据融合技术研究中文摘要在Deep Web 数据挖掘中，不同数据源之间往往会出现数据冲突，如何消解冲突从而获得正确值（这一过程称为数据融合）是数据集成中的一个关键问题。在数据源之间相互独立的理想情况下，如果提供某个正确值的数据源数量多于提供其它错误值的数量，那么可以应用投票机制将大多数数据源提供的属性值作为正确值。然而Web 技术使得数据源之间的拷贝变得容易，拷贝关系也变得很复杂。在一个top-k 查询接口上融合数据时希望能够忽略这些拷贝的信息，给用户呈现高质量的数据。本文运用统计学方法分析不同数据源之间的依赖关系，将其引入注重效率的在线数据融合过程和数据集成框架中，以最小代价获得最大覆盖性、更精准的查询结果。本文工作包括以下三点： (1) 提出检测一对数据源之间依赖关系的方法。该方法利用贝叶斯分析确定数据源之间的依赖性，设计出检测依赖性和融合数据的迭代算法，并通过考虑数据源准确度和属性值之间的相似性等条件扩展模型，有效地提高了数据融合的效果。 (2) 研究在一组数据源之间发现复杂拷贝关系的技术。首先，修正上述局部检测方法，提出一个可以插入不同类型拷贝证据的框架，并考虑不同数据项目上的拷贝相关性，以满足全局检测对拷贝方向的精确要求。其次，提出全局检测模型，消除协同拷贝、传递拷贝和多数据源拷贝等复杂拷贝关系，只返回具有直接拷贝关系的成对数据源。 (3) 引入依赖关系，构建在线数据融合系统。它从访问第一个数据源开始增量计算投票计数，返回答案及其置信度范围，在满足一定条件后终止。设计数据源排序算法，使得融合算法快速收敛并尽早返回高质量的答案。本文还对文中提出的方法和技术在真实数据集上进行了实验，结果表明本文技术是可行有效的。关键词：Deep Web，数据集成，数据融合，数据冲突，数据源依赖性，拷贝检测作者：陆姗姗指导老师：崔志明（教授） I Abstract Research on Techniques for Deep Web Data Fusion Based on Source Dependence Research on Techniques for Deep Web Data Fusion Based on Source Dependence Abstract In Deep Web data mining, data conflicts often arise among different data sources. How to resolve these conflicts and obtain correct values (known as data fusion) is a key issue in data integration. In the ideal case that data sources are all independent, if the number of data sources providing a correct value is more than that providing false ones, with a voting mechanism, we can easily take the value provided by the majority of the sources as the truth. However, web technologies have simplified copying and also enabl