- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯
2008年3月 河北大学成人教育学院学报 Mar.2008
第 1O卷第 1期 JournalofAdultEducationofHebeiUniversity Vo1.1ONO.1
基于 DeepWeb的图书检索系统设计
李石生 ,刘海博 ,赵 耀
(河北大学 数学与计算机学院,河北 保定 071002)
摘 要 :本文在介绍 DeepWeb集成系统结构、DeepWeb资源 的发现与分类、DeepWeb查询接 口模式抽取及集成、
查询结果抽取与合并研究的基础上 ,提 出了一个基于DeepWeb的网上图书检索系统的设计方案,并对其
中的关键 问题给 出了解 决思路 。
关键词:DeepWeb;信息抽取 ;图书检索
中图分类号:G354 文献标识码 :A 文章编号:1008-6471(2008)01-0103-02
随着 Intemet的发展和Web上信息的快速增加,越来 2.抽取查询接 口
越多的数据库可以通过基于表单的Web查询接 口来访 问, 由于HTML文件编码及布局的随意性 ,抽取查询接 口
这些数据库被称作 DeepWeb。根据2004年 Illinois大学的 主要面对的问题是如何匹配查询接FI中的input控件及其
一 份报告…估计 ,Web上存在 450000个在线数据库,这 描述性文本。
些信息大约的存储容量为 7500TB到91850TB ,并且 由 文献 根据浏览器显示页面的原理,使用页面在浏
于DeepWeb的数据大多是结构化的,其数据质量 比Sur— 览器中的布局情况来识别表单控件同描述它的文本之间的
faceWeb数据要高。但由于这些数据库的信息是通过查询 关系。首先计算每个控件水平及垂直方向邻近的文本同这
实时产生的,传统的搜索引擎很难索引到,当用户想要查 个控件的像素距离,产生4个候选文本,并采用三个有关
询图书时,不得不进入不同的图书 DeepWeb站点,分别 视觉信息的启发式规则识别。
查询,因此将图书领域的DeepWeb网站集成起来构建一 3.集成DeepWeb查询接 口
个统一图书检索系统能够方便用户的使用,也能对集成其 由于各DeepWeb网站查询接FI的多样性 ,因此要将
他领域的DeepWeb网站起到一定的参考作用。 这些查询接 口集成起来 ,形成统一接 口,并确定统一接 口
中的属性 。
一 、 DeepWeb资源集成系统 文献 提出了一种聚类及基于权重的方法来产生全
国内外针对DeepWeb资源集成研究主要包括三个方 局属性。首先根据属性名、属性值聚类,作为候选集,之
面:发现及根据领域分类 DeepWeb资源;抽取及集成 后针对候选集 中属性不同的特征将各属性赋予一定的权
DeepWeb查询接 口;抽取结果数据及合并。 目前国外一 值,进行加权平均 ,得出全局属性。
些大学针对于此作了一些探索。Illinois大学的MetaQuerier 4.结果抽取
项 目 的 目的是帮助用户找到并查询在线数据库。纽约 能够正确抽取页面返回结果中的数据并将结果清洗归
州立大学 Binghamton分校的DMSE项 目 的 目的是大规 并后提供给用户,是 DeepWeb集成系统重要 的一个部
模集成 Web数据库,包括 以下任务:发现 Web数据库 、 分。大部分研究都是通过构建包装器 (Wrapper)来实现
根据应用领域聚类数据库、相同应用领域集成查询接 FI、 页面抽取,目前针对此方面的研究比较完善。
查询 映射、抽取并且标注返 回页面 的搜 索结果、合并 文献 提出了一个方法来 自动的抽取返回页面的数
结果。
您可能关注的文档
- 基层电大教师职业倦怠的成因及对策的思考.pdf
- 基层卫生院消毒管理综合措施效果评价.pdf
- 基层医院CT简易方法定位脑内血肿穿刺抽吸引流术临床应用体会.pdf
- 基层医院护理文书记录常见缺陷及对策.pdf
- 鸡产蛋期常见病的防治(下).pdf
- 积分不等式的证明方法刍议.pdf
- 肌钙蛋白在先心病介入治疗中的变化.pdf
- 机关如何发挥示范作用.pdf
- 积极应对气候变化努力建设环境友好型社会.pdf
- 击剑运动专项素质训练方法.pdf
- 2025年中山市沙溪镇人民政府所属事业单位招聘11人笔试备考题库及参考答案详解一套.docx
- 2025年中山市横栏镇人民政府所属事业单位第二期招聘笔试高频难、易错点备考题库及参考答案详解一套.docx
- 2025年中山市横栏镇人民政府所属事业单位第二期招聘笔试高频难、易错点备考题库含答案详解.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试高频难、易错点备考题库及完整答案详解1套.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试高频难、易错点备考题库参考答案详解.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试备考题库附答案详解.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试高频难、易错点备考题库附答案详解.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试备考题库附答案详解.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试备考题库及答案详解一套.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试备考题库及完整答案详解1套.docx
文档评论(0)