Deep Web表单标签提取探究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Deep Web表单标签提取探究

Deep Web表单标签提取探究摘要:随着Internet的不断发展,Deep Web已经成为Web上重要的信息资源,Deep Web表单标签提取是访问Deep Web资源的前提与基础。该文提出了倒推算法来处理Deep Web表单标签。 关键词:深层网;表单标签;倒推算法;查询 中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)16-3821-02 Study of Deep Web Form-tag Extraction SHAO Chong-jie, CHEN Li-jun, XU Bei, DING Te-zhan (Zhejiang Yuexiu University of Foreign Languages, Shaoxin 312000, China) Abstract: Along with the development of Internet, Deep Web has becomes important information resources, Deep Web form-tag extrac tion is the premise and foundation of access Deep Web resource. This paper designs retrodict algorithm to handle Deep Web form-tag. Key words: deep Web; form-tag; retrodict algorithm; query 整个Web网络看似杂乱无章,但如果按其所蕴含信息“深度”,可以将其划分为Surface Web和Deep Web两大类。前者主要是指通过浏览器浏览的网页,它们可以被Google等搜索引擎直接检索。后者通常是指隐蔽在查询表单后面,由网站在需要时动态生成的网页,这些网页不能被传统的搜索引擎直接检索。 随着数据库技术和网络技术的不断发展,Deep Web已经成为Web上重要的信息资源。有研究表明[1],Deep Web具有信息量大、覆盖面广、结构化程度高、增长速度快等特点。由于表单是访问Deep Web资源的唯一途径,传统的搜索引擎通过链接访问页面,缺少自动处理表单的能力,长期以来Deep Web资源得不到搜索引擎的索引和检索,因此,研究如何对表单进行处理以获取大量高质量的Deep Web资源具有非常重要的现实意义。 1 Deep Web表单 一个表单通常包含有说明性文字、表单控件、控件标签等内容,其用途包括注册、投票、登录、查询等。Deep Web表单是专指用作查询功能的表单。当用户提出请求使用表单查询时,首先从服务器下载表单供用户浏览,用户根据控件标签、文字说明等信息向表单控件填写查询条件等内容并提交,Web服务器通过专门的CGI接口接收用户提交的查询请求,并根据要求做出响应,将请求的查询结果反馈给查询用户。用户使用Deep Web表单的过程如图1所示。 2 Deep Web表单标签提取 Deep Web表单标签提取一般包括两个步骤:Deep Web表单识别和Deep Web表单标签识别和提取。 2.1 Deep Web表单识别 在Web中存在各式各样的表单,因此在进行标签提取之前,首先要过滤掉非查询表单的干扰,识别出作为查询功能的Deep Web表单。其识别过程如图2所示。 图2Deep Web表单识别 URL队列中的URL由网络爬虫从一个初始的URL集出发采集迭代所得到。这里识别一个表单是否为Deep Web表单,采用了3种启发式规则:①URL的深度,②页面的密码框控件,③页面表单中的可输入控件数量。如果一个表单达不到以上要求,则认为该表单不是Deep Web表单而丢弃。 2.2 Deep Web表单标签识别与提取 表单标签提取是进行表单填充的前提,表单标签提取的准确与否直接关系到表单填充[2]。用户可以通过眼睛浏览和识别表单控件,从而理解表单对表单做相应的处理,但要由机器来自动完成这一系列动作却是一件困难的事,因为表单在设计时是面向用户,而不是面向机器,即机器做不到像人那样“理解”表单控件的真正含义。虽然在HTML标准中有label标记专门指示表单控件的标签,但已有实验表明[3],实际上label标记很少被网站采用。 该文提出一种倒推算法(Retrodict Algorithm),其基本思想为:按序读取整个表单的元素(分为文本与非文本两种)放入队列,根据非文本元素(即表单或表单控件)的标签特点,从队列中读取文本和非文本元素进行搭配组合。算法具体步骤如下: ①将提取的表单元素分为文本和非文本分别放入相应的队列; ②

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档