- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Deep Web表单标签提取探究
Deep Web表单标签提取探究摘要:随着Internet的不断发展,Deep Web已经成为Web上重要的信息资源,Deep Web表单标签提取是访问Deep Web资源的前提与基础。该文提出了倒推算法来处理Deep Web表单标签。
关键词:深层网;表单标签;倒推算法;查询
中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)16-3821-02
Study of Deep Web Form-tag Extraction
SHAO Chong-jie, CHEN Li-jun, XU Bei, DING Te-zhan
(Zhejiang Yuexiu University of Foreign Languages, Shaoxin 312000, China)
Abstract: Along with the development of Internet, Deep Web has becomes important information resources, Deep Web form-tag extrac tion is the premise and foundation of access Deep Web resource. This paper designs retrodict algorithm to handle Deep Web form-tag.
Key words: deep Web; form-tag; retrodict algorithm; query
整个Web网络看似杂乱无章,但如果按其所蕴含信息“深度”,可以将其划分为Surface Web和Deep Web两大类。前者主要是指通过浏览器浏览的网页,它们可以被Google等搜索引擎直接检索。后者通常是指隐蔽在查询表单后面,由网站在需要时动态生成的网页,这些网页不能被传统的搜索引擎直接检索。
随着数据库技术和网络技术的不断发展,Deep Web已经成为Web上重要的信息资源。有研究表明[1],Deep Web具有信息量大、覆盖面广、结构化程度高、增长速度快等特点。由于表单是访问Deep Web资源的唯一途径,传统的搜索引擎通过链接访问页面,缺少自动处理表单的能力,长期以来Deep Web资源得不到搜索引擎的索引和检索,因此,研究如何对表单进行处理以获取大量高质量的Deep Web资源具有非常重要的现实意义。
1 Deep Web表单
一个表单通常包含有说明性文字、表单控件、控件标签等内容,其用途包括注册、投票、登录、查询等。Deep Web表单是专指用作查询功能的表单。当用户提出请求使用表单查询时,首先从服务器下载表单供用户浏览,用户根据控件标签、文字说明等信息向表单控件填写查询条件等内容并提交,Web服务器通过专门的CGI接口接收用户提交的查询请求,并根据要求做出响应,将请求的查询结果反馈给查询用户。用户使用Deep Web表单的过程如图1所示。
2 Deep Web表单标签提取
Deep Web表单标签提取一般包括两个步骤:Deep Web表单识别和Deep Web表单标签识别和提取。
2.1 Deep Web表单识别
在Web中存在各式各样的表单,因此在进行标签提取之前,首先要过滤掉非查询表单的干扰,识别出作为查询功能的Deep Web表单。其识别过程如图2所示。
图2Deep Web表单识别
URL队列中的URL由网络爬虫从一个初始的URL集出发采集迭代所得到。这里识别一个表单是否为Deep Web表单,采用了3种启发式规则:①URL的深度,②页面的密码框控件,③页面表单中的可输入控件数量。如果一个表单达不到以上要求,则认为该表单不是Deep Web表单而丢弃。
2.2 Deep Web表单标签识别与提取
表单标签提取是进行表单填充的前提,表单标签提取的准确与否直接关系到表单填充[2]。用户可以通过眼睛浏览和识别表单控件,从而理解表单对表单做相应的处理,但要由机器来自动完成这一系列动作却是一件困难的事,因为表单在设计时是面向用户,而不是面向机器,即机器做不到像人那样“理解”表单控件的真正含义。虽然在HTML标准中有label标记专门指示表单控件的标签,但已有实验表明[3],实际上label标记很少被网站采用。
该文提出一种倒推算法(Retrodict Algorithm),其基本思想为:按序读取整个表单的元素(分为文本与非文本两种)放入队列,根据非文本元素(即表单或表单控件)的标签特点,从队列中读取文本和非文本元素进行搭配组合。算法具体步骤如下:
①将提取的表单元素分为文本和非文本分别放入相应的队列;
②
您可能关注的文档
最近下载
- 2024年辽宁石化职业技术学院单招职业技能测试题库及答案解析.docx VIP
- 管理学教案完整版.doc VIP
- 器械消毒清洗流程.pptx VIP
- 2025年辽宁石化职业技术学院单招职业适应性测试题库及完整答案一套.docx VIP
- GAT 383-2014 法庭科学DNA实验室检验规范.pdf
- QMS3D-MV1.0.1.6仪器使用说明书.doc VIP
- 妇科临床诊疗指南及操作规范.docx VIP
- [番汉合时掌中珠].骨勒茂才.罗振玉辑.二种.扫描版.pdf VIP
- 2025年辽宁石化职业技术学院单招职业倾向性考试题库必考题.docx VIP
- (完整版)小学三年级24点练习题及答案.pdf VIP
文档评论(0)