Deep Web表单标签提取探究.docVIP

下载本文档

3
0
约2.91千字
约 6页
2017-08-15 发布于福建
举报
版权申诉

Deep Web表单标签提取探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Deep Web表单标签提取探究

Deep Web表单标签提取探究摘要：随着Internet的不断发展，Deep Web已经成为Web上重要的信息资源，Deep Web表单标签提取是访问Deep Web资源的前提与基础。该文提出了倒推算法来处理Deep Web表单标签。关键词：深层网;表单标签;倒推算法;查询中图分类号：TP311文献标识码：A文章编号：1009-3044(2012)16-3821-02 Study of Deep Web Form-tag Extraction SHAO Chong-jie, CHEN Li-jun, XU Bei, DING Te-zhan (Zhejiang Yuexiu University of Foreign Languages, Shaoxin 312000, China) Abstract: Along with the development of Internet, Deep Web has becomes important information resources, Deep Web form-tag extrac tion is the premise and foundation of access Deep Web resource. This paper designs retrodict algorithm to handle Deep Web form-tag. Key words: deep Web; form-tag; retrodict algorithm; query 整个Web网络看似杂乱无章，但如果按其所蕴含信息“深度”，可以将其划分为Surface Web和Deep Web两大类。前者主要是指通过浏览器浏览的网页，它们可以被Google等搜索引擎直接检索。后者通常是指隐蔽在查询表单后面，由网站在需要时动态生成的网页，这些网页不能被传统的搜索引擎直接检索。随着数据库技术和网络技术的不断发展，Deep Web已经成为Web上重要的信息资源。有研究表明[1]，Deep Web具有信息量大、覆盖面广、结构化程度高、增长速度快等特点。由于表单是访问Deep Web资源的唯一途径，传统的搜索引擎通过链接访问页面，缺少自动处理表单的能力，长期以来Deep Web资源得不到搜索引擎的索引和检索，因此，研究如何对表单进行处理以获取大量高质量的Deep Web资源具有非常重要的现实意义。 1 Deep Web表单一个表单通常包含有说明性文字、表单控件、控件标签等内容，其用途包括注册、投票、登录、查询等。Deep Web表单是专指用作查询功能的表单。当用户提出请求使用表单查询时，首先从服务器下载表单供用户浏览，用户根据控件标签、文字说明等信息向表单控件填写查询条件等内容并提交，Web服务器通过专门的CGI接口接收用户提交的查询请求，并根据要求做出响应，将请求的查询结果反馈给查询用户。用户使用Deep Web表单的过程如图1所示。 2 Deep Web表单标签提取 Deep Web表单标签提取一般包括两个步骤：Deep Web表单识别和Deep Web表单标签识别和提取。 2.1 Deep Web表单识别在Web中存在各式各样的表单，因此在进行标签提取之前，首先要过滤掉非查询表单的干扰，识别出作为查询功能的Deep Web表单。其识别过程如图2所示。图2Deep Web表单识别 URL队列中的URL由网络爬虫从一个初始的URL集出发采集迭代所得到。这里识别一个表单是否为Deep Web表单，采用了3种启发式规则：①URL的深度，②页面的密码框控件，③页面表单中的可输入控件数量。如果一个表单达不到以上要求，则认为该表单不是Deep Web表单而丢弃。 2.2 Deep Web表单标签识别与提取表单标签提取是进行表单填充的前提，表单标签提取的准确与否直接关系到表单填充[2]。用户可以通过眼睛浏览和识别表单控件，从而理解表单对表单做相应的处理，但要由机器来自动完成这一系列动作却是一件困难的事，因为表单在设计时是面向用户，而不是面向机器，即机器做不到像人那样“理解”表单控件的真正含义。虽然在HTML标准中有label标记专门指示表单控件的标签，但已有实验表明[3]，实际上label标记很少被网站采用。该文提出一种倒推算法（Retrodict Algorithm），其基本思想为：按序读取整个表单的元素（分为文本与非文本两种）放入队列，根据非文本元素（即表单或表单控件）的标签特点，从队列中读取文本和非文本元素进行搭配组合。算法具体步骤如下： ①将提取的表单元素分为文本和非文本分别放入相应的队列； ②