基于Deep Web的图书检索系统设计.pdfVIP

下载本文档

6
0
约7.61千字
约 2页
2017-08-08 发布于北京
举报
版权申诉

基于Deep Web的图书检索系统设计.pdf

1、本文档共2页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

维普资讯 2008年3月河北大学成人教育学院学报 Mar．2008 第 1O卷第 1期 JournalofAdultEducationofHebeiUniversity Vo1．1ONO．1 基于 DeepWeb的图书检索系统设计李石生，刘海博，赵耀 (河北大学数学与计算机学院，河北保定 071002) 摘要：本文在介绍 DeepWeb集成系统结构、DeepWeb资源的发现与分类、DeepWeb查询接口模式抽取及集成、查询结果抽取与合并研究的基础上，提出了一个基于DeepWeb的网上图书检索系统的设计方案，并对其中的关键问题给出了解决思路。关键词：DeepWeb；信息抽取；图书检索中图分类号：G354 文献标识码：A 文章编号：1008-6471(2008)01-0103-02 随着 Intemet的发展和Web上信息的快速增加，越来 2．抽取查询接口越多的数据库可以通过基于表单的Web查询接口来访问，由于HTML文件编码及布局的随意性，抽取查询接口这些数据库被称作 DeepWeb。根据2004年 Illinois大学的主要面对的问题是如何匹配查询接FI中的input控件及其一份报告…估计，Web上存在 450000个在线数据库，这描述性文本。些信息大约的存储容量为 7500TB到91850TB ，并且由文献根据浏览器显示页面的原理，使用页面在浏于DeepWeb的数据大多是结构化的，其数据质量比Sur— 览器中的布局情况来识别表单控件同描述它的文本之间的 faceWeb数据要高。但由于这些数据库的信息是通过查询关系。首先计算每个控件水平及垂直方向邻近的文本同这实时产生的，传统的搜索引擎很难索引到，当用户想要查个控件的像素距离，产生4个候选文本，并采用三个有关询图书时，不得不进入不同的图书 DeepWeb站点，分别视觉信息的启发式规则识别。查询，因此将图书领域的DeepWeb网站集成起来构建一 3．集成DeepWeb查询接口个统一图书检索系统能够方便用户的使用，也能对集成其由于各DeepWeb网站查询接FI的多样性，因此要将他领域的DeepWeb网站起到一定的参考作用。这些查询接口集成起来，形成统一接口，并确定统一接口中的属性。一、 DeepWeb资源集成系统文献提出了一种聚类及基于权重的方法来产生全国内外针对DeepWeb资源集成研究主要包括三个方局属性。首先根据属性名、属性值聚类，作为候选集，之面：发现及根据领域分类 DeepWeb资源；抽取及集成后针对候选集中属性不同的特征将各属性赋予一定的权 DeepWeb查询接口；抽取结果数据及合并。目前国外一值，进行加权平均，得出全局属性。些大学针对于此作了一些探索。Illinois大学的MetaQuerier 4．结果抽取项目的目的是帮助用户找到并查询在线数据库。纽约能够正确抽取页面返回结果中的数据并将结果清洗归州立大学 Binghamton分校的DMSE项目的目的是大规并后提供给用户，是 DeepWeb集成系统重要的一个部模集成 Web数据库，包括以下任务：发现 Web数据库、分。大部分研究都是通过构建包装器 (Wrapper)来实现根据应用领域聚类数据库、相同应用领域集成查询接 FI、页面抽取，目前针对此方面的研究比较完善。查询映射、抽取并且标注返回页面的搜索结果、合并文献提出了一个方法来自动的抽取返回页面的数结果。