基于Deep Web的图书检索系统设计.pdfVIP

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯 2008年3月 河北大学成人教育学院学报 Mar.2008 第 1O卷第 1期 JournalofAdultEducationofHebeiUniversity Vo1.1ONO.1 基于 DeepWeb的图书检索系统设计 李石生 ,刘海博 ,赵 耀 (河北大学 数学与计算机学院,河北 保定 071002) 摘 要 :本文在介绍 DeepWeb集成系统结构、DeepWeb资源 的发现与分类、DeepWeb查询接 口模式抽取及集成、 查询结果抽取与合并研究的基础上 ,提 出了一个基于DeepWeb的网上图书检索系统的设计方案,并对其 中的关键 问题给 出了解 决思路 。 关键词:DeepWeb;信息抽取 ;图书检索 中图分类号:G354 文献标识码 :A 文章编号:1008-6471(2008)01-0103-02 随着 Intemet的发展和Web上信息的快速增加,越来 2.抽取查询接 口 越多的数据库可以通过基于表单的Web查询接 口来访 问, 由于HTML文件编码及布局的随意性 ,抽取查询接 口 这些数据库被称作 DeepWeb。根据2004年 Illinois大学的 主要面对的问题是如何匹配查询接FI中的input控件及其 一 份报告…估计 ,Web上存在 450000个在线数据库,这 描述性文本。 些信息大约的存储容量为 7500TB到91850TB ,并且 由 文献 根据浏览器显示页面的原理,使用页面在浏 于DeepWeb的数据大多是结构化的,其数据质量 比Sur— 览器中的布局情况来识别表单控件同描述它的文本之间的 faceWeb数据要高。但由于这些数据库的信息是通过查询 关系。首先计算每个控件水平及垂直方向邻近的文本同这 实时产生的,传统的搜索引擎很难索引到,当用户想要查 个控件的像素距离,产生4个候选文本,并采用三个有关 询图书时,不得不进入不同的图书 DeepWeb站点,分别 视觉信息的启发式规则识别。 查询,因此将图书领域的DeepWeb网站集成起来构建一 3.集成DeepWeb查询接 口 个统一图书检索系统能够方便用户的使用,也能对集成其 由于各DeepWeb网站查询接FI的多样性 ,因此要将 他领域的DeepWeb网站起到一定的参考作用。 这些查询接 口集成起来 ,形成统一接 口,并确定统一接 口 中的属性 。 一 、 DeepWeb资源集成系统 文献 提出了一种聚类及基于权重的方法来产生全 国内外针对DeepWeb资源集成研究主要包括三个方 局属性。首先根据属性名、属性值聚类,作为候选集,之 面:发现及根据领域分类 DeepWeb资源;抽取及集成 后针对候选集 中属性不同的特征将各属性赋予一定的权 DeepWeb查询接 口;抽取结果数据及合并。 目前国外一 值,进行加权平均 ,得出全局属性。 些大学针对于此作了一些探索。Illinois大学的MetaQuerier 4.结果抽取 项 目 的 目的是帮助用户找到并查询在线数据库。纽约 能够正确抽取页面返回结果中的数据并将结果清洗归 州立大学 Binghamton分校的DMSE项 目 的 目的是大规 并后提供给用户,是 DeepWeb集成系统重要 的一个部 模集成 Web数据库,包括 以下任务:发现 Web数据库 、 分。大部分研究都是通过构建包装器 (Wrapper)来实现 根据应用领域聚类数据库、相同应用领域集成查询接 FI、 页面抽取,目前针对此方面的研究比较完善。 查询 映射、抽取并且标注返 回页面 的搜 索结果、合并 文献 提出了一个方法来 自动的抽取返回页面的数 结果。

您可能关注的文档

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档