- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
深网搜索引擎的主要功能和关键技术研究
摘要:深网又可称为Deep Web。在此基础上发展起来的深网搜索引擎逐渐成为互联网应用的一大趋势,特别是针对学术研究者有重要意义。本文首先简单介绍了深网搜索引擎的研究背景和意义,然后从主要功能方面进一步加深对深网的了解,然后详细介绍了深网搜索引擎的关键技术,最后得出结论。
关键词:Deep Web,搜索引擎,接口识别,数据库分类,数据库选择,查询接口集成,查询结果抽取
1 研究背景和意义
用户在互联网上查询信息时经常遇到的问题是重复信息太多、信息太陈旧更新缓慢、得到的有用信息太少、信息查找不方便。所以如何满足网民的搜索要求是当前搜索引擎研究的重点之一,由此出现了几种搜索引擎创新技术,如语义搜索、知识图谱、深网搜索。对于互联网上可获得的但传统的搜索引擎由于技术限制不能搜寻到或者经过慎重考虑后不愿意作索引的那些文本网页、文件或其他高质量、权威的信息,中文又有“隐形网络”、“看不见的网络”、“深网”、“暗资源”等说法。1994年,美国学者Dr.Jill Ellsworth首先使用“看不见的网络” Invisible Web概念,但没有引起重视。直到2000年以后,随着Web 数据库的广泛应用,才有相关的研究论文及成果发表,并迅速引发了热烈的讨论和研究。
深层网的研究目前主要分为两个方向:1)深层网的规模、分布和结构的调查和研究。美国BrightPlanet公司,专门从事数据整合和企业信息分析,该公司开发了深网检索平台工具DQM(Deep Query Manager)。在2000年7月,BrightPlanet公司对深网的规模和相关性进行了研究,并将其调查白皮书发布在互联网站点上。UIUC大学在2004年对深网做了一次较为准确的估算。2)深层网搜索引擎系统关键技术的研究。目前主要的关键技术有Deep Web接口识别方法、信息提取算法、数据库选择算法、Deep Web集成查询接口生成方法。
深网资源内容丰富,专业性较强,质量高。因此了解深网主要功能并研究其关键技术,从而采集互联网上巨大的信息资源,为人们提供方便的信息获取方法,具有比较重要的意义。
2 深网搜索引擎的主要功能
搜索引擎的英文为search engine。搜索引擎是一个对互联网信息资源进行搜索整理和分类,并储存在网络数据库中供用户查询的系统,包括信息搜集、信息分类、用户查询三部分。深网搜索引擎也是搜索引擎的一种,但是其从Deep Web数据库中获得数据的过程与普通搜索引擎有所不同,如下图,
Deep Web是通过填写表单,并提交到后台服务器查询数据库后,以动态页面的形式返回信息。在Deepweb数据集成领域存在着许多的研究问题,已有的工作主要集中这些问题上:web数据库的发现、查询接口模式的抽取、web数据库的分类、查询接口的集成、查询的转换、查询结果的抽取、查询结果的注释等.有些问题已经得到了较多的研究,而有些问题还处在研究的初步阶段甚至还没有相关的报道。为了给出一个全面的认识,我们提出了Deep web数据集成框架,该框架共分为三个主要的模块,如下图,
集成查询接口生成模块。为用户提供一个统一的查询接口,使之可以同时向多个统一领域内的查询接口提交查询,即达到同时访问属于同一领域的多个web数据库的目的。该部分共有4个主要的子模块:web数据库的发现、查询接口模式的抽取、基于领域web数据库的分类和查询接口集成。web数据库的发现是指从web中发现具有一个真正Web数据库的网站,然后从中发现可访问这个web数据库的查询接口。查询接口模式的抽取是对前一步获得的查询接口中所包含的属性进行分析和抽取,获得一个查询接口的模式信息。web数据库的分类是指根据已得到的查询接口的模式信息确定其对应web数据库所属的领域,即按照领域对web数据库进行分类。查询接口的集成是对属于同一个领域的查询接口进行集成,得到一个全局的查询接口。
查询处理模块。将用户在集成的查询接口上填写的查询转化到对各个web数据库本地查询接口的查询。该部分包含3个子模块:web数据库的选择、查询转换和查询提交。web数据库的选择是指为一个给定的用户查街从所有集成的web数据库中选择合适的进行查询。查询转换是指将用户在集成查询接口上提交的查询转换到web数据库本地的查询.查询提交是指自动地将转换后的查询进行提交。
查询结果处理模块。将各个web数据库返回的结果抽取并合并到一个统一的结构化的模式下。该部分包括结果的抽取、结果的注释和结果的合并。查询结果的抽取是指从web数据库返回的结果页面中抽取出真正的查询结果。结果的注释是指由于抽取的结果通常缺少语义,因此要为缺少语义的数据项进行语义注释。查询结果的合并是指把从各个web数据库得到的查询结果进行有效的合并去重,存储
文档评论(0)