- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
No.2
第32卷第2期 江西师范大学学报(自然科学版) V01.32
2008年4月 JOURNALOFⅡANCⅪNORMALUNIVERSITY(NATURALSCIENCE) A严.2008
文章编号:100阻5862(2008)02一D19r7.04
领域Web数据库查询接口的自动发现
林培光, 吕超
(山东财政学院计算机学院,山东济南250014)
web信息的基础,提出了基于搜索引擎的表单发
摘要:由于Deepweb查询接口的自动发现是获取Deep
现方法和基于语义相似度的查询表单判定方法.该文首先定义了查询表单的特征的表示方法,然后自动
提取样本查询接口的特征并将其中的文字特征进行组合提交给搜索引擎以实现查询表单的搜索,最后基
于语义相似度和字面相似度的方法判定搜索表单和样本表单之间的相似度,并由此判定是否是WDB的
Web提供了良好的条件.
查询接口.实验证明该文方法具有良好的可行性和实用性,为深入研究Deep
web
关键词:关键词:web数据库;查询接口;Deep
中图分类号:TP391.3 文献标识码:A
随着w曲数据库的广泛应用,W曲正在加速地“深化”L1引.Intemet上有大量页面由后台数据库动态产
Web.文
生,现有的搜索引擎不能索引这部分页面信息,使得这部分信息对用户来说是隐藏的,称之为Deep
Web定义为w击中不能被传统搜索引擎索引到的那部分内容,特别是指那些通过查询实时
献[3]中将Deep
产生的动态页面.与Sulfa08 web蕴藏了更加丰富、更加“专业”(专注于某一领域)的信息.
web相比,Deep
web做了一次较为准确的估算,推测整个Web上有307000个提供web数
UIUC大学在2004年对整个Deep
据库的网站、450
web信息获取至关重要.基于所有包含查询接口的页面都至少包含一个用于
找到网络上的查询接口对Deep
提交查询的HTML表单,本文提出一个通过搜索引擎找到相关领域的HTML表单并判定该表单是否是该领
域WDB查询接口的方法,实验表明本文方法具有较好的实用性.
1领域Web数据库查询接口发现
要获取WDB的查询接口,首先要找到包含HTML表单的页面,然后判断此表单是否为WDB的查询接
口.为了找到包含HTML表单的页面,(1)向搜索引擎提交查询关键字,由搜索引擎返回相关页面集合(CRP:
CollectionOfRelated
面,构造合理的查询关键字是要解决的首要问题.该问题具体见1.1、1.2节.步骤(2)可以通过对页面结构的
分析容易的获取.
找到包含表单的页面后,下一步就要判定该表单是否是查询接口,以避免返回一些如注册表单、登录表
单等非查询表单.判定的方法有两种:一是通过提交样本数据,根据表单的返回结果判定是否查询表单;另
一种是通过机器学习,计算该表单与样本查询接lZl的相似度,当大于某个阈值时可以认为该表单为某一个
分类的查询表单.第一种方法依赖于所提交的样本数据的质量,也就是说,如果样本数据不合理,很容易导
致返回空的结果或只返回一个结果,无法判定表单的类别;而第二种方法因为不需要提交样本查询,具有良
好的可操作性.本文采用第二种方法,具体见1.3节.
1.1查询表单特征提取
特征抽取和特征词选择是领域数据库查询接口发现的重要操作,因为:(1)要通过搜索引擎返回更多的
收稿日期:2007。12-01
基金项目:山东财政学院博士科研启动基金(0r7BslJl
文档评论(0)