查询接口发现算法研究.docxVIP

  • 6
  • 0
  • 约1.35万字
  • 约 19页
  • 2016-12-19 发布于安徽
  • 举报
word精品文档,支持编辑复制,内部资料,值得参考!

第二章 查询接口发现算法研究对于从网页中抽取出所需的查询接口来说,能够有效地解决从众多的表单中去抽取出所需的查询接口是首要的问题,是极其重要的一个环节。如上所述,Deep Web查询接口的发现对Deep Web数据集成有着重要的意义,对查询接口的准确判别能够使Deep Web数据集成更加准确和高效。简单说来,Deep Web查询接口发现就是从网页中抽取出表单信息,然后提取出表单特征,利用提取的特征对表单分类,进而实现Deep Web的查询接口发现。2.1 相关问题描述2.1.1 DOM文档对象模型DOM(Document Object Model,文档对象模型)是W3C定义的一种标志规范,它指定了解析文件的接口。其它语言可以依照DOM规范实现这些接口,得出解析文件解析器。DOM规范中所指的文件范围非常广泛,XML文件和HTML文件都包含其中。符合DOM规范的解析器需按照规范在内存中存储数据,树模型是DOM规范中的核心。处理由HTML和XML编写的网页信息是DOM的主要目标。2.1.1.1 DOM表示的HTML文档在DOM中,HTML文档被采用树模式在内存中存储,html标签被作为书的根节点,head,body以及form等是子节点,它们互相之前是兄弟节点。网页中的内容如文本和图片等是作为树的叶节点,这样整个HTML文档就构成了一棵按照DOM规范组成的DOM树。比如源文件如下:html headtitlename/title /head bodyform action=”../search.aspx” method=”get” name=”searchbook”input type=”text” name=”bookname”input type=”hidden” name=”catalog” value=”value”input type=”submit” value=”submit” name=”name”/form/body/html将上面的html文档解析生成一棵DOM树结构的结果如果3-1所示: 从上面的图可以看出,HTML的标签成为了DOM树中的节点,节点是DOM中的基本元素,正是节点构成了DOM的整个结构-节点树,因此,以节点为对象的操作构成了对节点数操作的主体,接下来就分析下如何对节点树进行操作。2.1.1.2 DOM对文档对象的操作在DOM树结构中,每个节点都被当做一个对象看待,每个对象都有属于自己的方法以及属性,通过这些方法和属性就可以方便地遍历整棵树,也可以方便地修改以及查询其内容。表2-1中列出HTML中常用的几种节点类型:表2-1 HTML中常用节点类型DOM树中的节点的属性有两种,分别是只读和读写属性。可以浏览节点并查询节点类型和名称等的是只读属性,读写属性则更进一步,不但可以查询节点信息,还可以访问文字节点的内容。表3-2列出了节点对常见属性,表3-3则给出了节点对象常见方法。 2.1.2 网页表单的启发式规则研究从网页表单的结构特征就可以进行是否是Deep Web查询接口的判别,但如果对每个表单都进行相同的判断,就可能存在许多不必要的操作,这是因为某些表单所具有的某些特征可以很明显的判断出不是Deep Web查询接口,如果对这些表单还进行通常的操作会加很多不必要的麻烦。应用启发式判断可以尽早地去掉肯定不是Deep Web查询接口的表单,这样的话在减少资源开销的同时又提高了效率以及准确性。通过分析各种类型表单已经掌握了一些表单是否是查询接口的规律【】,显然的,查询接口表单中必须有form标签,因为查询接口必须能输入信息然后提交,反之没有form标签的直接排除,这样就可以排除相当大部分的网页。其余的就是内含表单的网页,它们的表单类型有几大类:登录表单、注册表单、写发邮件表单、搜索引擎表单、论坛讨论表单和查询接口表单。其中登录表单和注册表单会要求输入密码,它们的form中会有password控件,但查询接口是面向公众访问的,不需要password控件,因此可以排除带有password控件的表单。写发邮件和论坛讨论需要用户发表长短不一的文字,表单中需含有textarea控件,但查询接口只需输入关键字或选择就可以,不需要大段的文字输入,通常不含有该控件。而对搜索引擎来说,它们的表单一般只有一个TEXT控件,同时搭配“搜索”、“search”等关键词,这些特点也会在一些站内搜索中出现。但在Deep Web中查询数据时一般不会像搜索引擎那样只需输入关键词,通常会需要多个关键词或是和条件选择的组合,所以会出现至少两个TEXT控件,如果加上最少一个submit控件组成的提交按钮,其表单控件数最少为三个。另外一个判定依据是HTML文档中的title和/title之间的内容,其表明了网页主题,网页类型有时可以直接

文档评论(0)

1亿VIP精品文档

相关文档