13-第3次课-新一代数据库系统 -2-Deep Web 集成与查询new.pptVIP

下载本文档

1
0
约1.66万字
约 93页
2017-07-27 发布于湖北
举报
版权申诉

13-第3次课-新一代数据库系统 -2-Deep Web 集成与查询new.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2013-第3次课-新一代数据库系统-2-DeepWeb集成与查询new

总结：实现了如何自动的为一组数据源建立中间件模式；设计了数据源与中间件模式之间概率映射算法；用实验证明了本文算法的有效性和高效性。第4章 Deep Web 数据集成研究 * 第4章 Deep Web 数据集成研究深层网络发展趋势与文本搜索结合，成为垂直搜索的基础。 * 第4章 Deep Web 数据集成研究深层网络发展趋势（1）针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是专、精、深，而且具有行业色彩。它是与通用搜索引擎截然不同的引擎类型，专注具体、深入的纵向服务，致力于某一特定领域内信息的全面和内容的深入，这个领域外的闲杂信息不收录。（2）针对某个行业的专业搜索，是搜索引擎的细分和延伸，是对网页库中某类专门的信息进行整合，分字段抽取需要的数据进行处理后再以某种形式返回给用户。垂直搜索是一种垂直的对象搜索技术。所谓“垂直”，是指该技术指向某一特定领域，如购物、机票等。“对象”是指搜索引擎在反馈搜索结果时，不再表现成一个个独立的页面，而是将各页面的相关信息按照用户的需求集合成一个个完整的项目。垂直搜索 * 第4章 Deep Web 数据集成研究深层网络发展趋势垂直搜索引擎实现流程： spider抓取网页；对网页进行分类；对网页进行信息提取，即将网页的非结构化数据抽取成特定的结构化数据；将这些数据存储到数据库，进行进一步的加工处理，如去重、分析比较等；最后通过分词索引提供用户搜索。 * 第4章 Deep Web 数据集成研究深层网络发展趋势对象级的垂直搜索 “对象”的概念指的则是搜索引擎在反馈搜索结果时，不再表现为一个独立的页面，而是将各个页面中关于真实世界中对象的结构化信息按照用户的需求集合成一个个完整的信息单元。 * 第4章 Deep Web 数据集成研究深层网络发展趋势对象级垂直搜索的体系结构：对象级垂直搜索的基本过程：利用爬虫从网络上获取大量网页数据并进行分类，将网页上非结构化的数据转化成结构化的数据存储在大型数据仓库（需要具备处理结构化查询的能力，将数据储存也有助于利用数据挖掘技术挖掘一些感兴趣的信息）中，根据检索到的对象与用户的查询的相关度进行排序，并把相关度高的对象作为输出。 * 第4章 Deep Web 数据集成研究深层网络发展趋势对象级搜索和网页级搜索的区别： * 第4章 Deep Web 数据集成研究本阶段阶段总结通过上述3次课，分别介绍了数据仓库、数据集成，并介绍了目前处于研究前沿的深层网络数据集成和查询。数据挖掘算法应用的基础就是庞大的数据集合。例如数据仓库、行业集成数据系统、空间数据库等。在数据挖掘领域提出的许多算法，当置身于大型数据库中进行验证时，往往会出现许多新的问题。对许多算法的改进都可以从提高检索效率上考虑，比如说减少扫描遍数，采用抽样数据方法，采用并行数据处理方法等。因此，对数据集成的研究是非常必要和有用的。 * 第4章 Deep Web 数据集成研究下阶段基础从特殊的训练样例（可以理解为数据集合）中归纳出一般模型（函数）是数据挖掘（机器学习）的中心问题；从训练样例中进行学习通常被视为归纳推理。每个例子都是一个对偶（序偶）（x, f(x)），对每个输入的x，都有确定的输出f(x)。学习过程将产生对目标函数f的不同逼近。F的每一个逼近都叫做一个假设。假设需要以某种形式表示。例如，y=ax+b。通过调整假设的表示，学习过程将产生出假设的不同变形。在表示中通常需要修改参数（如a, b）。从这些不同的变形中选择最佳的假设（或者说权值集合）。一般方法如定义为使训练值与假设值预测出的值之间的误差平方和E最小为最佳。学习是在假设空间上的一个搜索。当训练样例（数据集合）非常庞大时，我们不得不将很大精力放在搜索性能方面。后面将要讨论的算法如关联规则、决策树、基于示例的学习、聚类分析等方法都无例外。 * * * * * * 使用0.5，0.5的概率保持了公平性。 * * Probabilistic mediated schema mappings 是基于他们之前的工作。是有根据的一步步的扩展实验部分对比比较充分。实验设计比较合理和明确，因此重点也比较突出。文章中还提到了这是第一个complete self-configure data integration system。第4章 Deep Web 数据集成研究深层网络数据查询策略与方法数据源描述-查询过程的细化-关于结果缓存结果缓存又称语义缓存。语义缓存的研究