一种基于数据驱动型Web页面信息抽取方法.docVIP

下载本文档

2
0
约4.96千字
约 10页
2018-08-13 发布于福建
举报
版权申诉

一种基于数据驱动型Web页面信息抽取方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于数据驱动型Web页面信息抽取方法

一种基于数据驱动型Web页面的信息抽取方法　　摘要：提出了一种以XSLT为抽取规则的Web信息抽取方法。首先将样本Web文档转换为XHTML文档，通过解析器构造DOM树，寻找最大频繁子树并识别出用户感兴趣信息，以此形成需抽取内容的定位信息。然后对不同样本Web文档的定位信息进行归纳学习，并构造出以XSLT文档表示的抽取规则。最后应用该抽取规则进行实际的信息抽取。方法基本不需要人工干预即可完成Web信息抽取，可应用于Web数据挖掘以及信息搜集比对等应用领域。　　关键词：Web；抽取；XML；XSLT 　　Extracting Information of Web based on Data Driver 　　LIU Hongyi 　　（College of the PLA border denfense academy of fighting Lab，Xian，China，710108）　　Abstract： This paper presents a method of information extraction using XSLT as extracting rules. First， change the sample Web document into XHTML document， constructs DOM tree by the parser， find out the biggest frequent sub tree and identify the information which users are interested in， which produces localization information needed to extract content. Second， induction study about the localization information of different sample Web documents， and construct the extraction rules expressed with XSLT documents. Finally， information is actually extracted using these rules. This method can almost accomplish Web information extraction without manual intervention， and can be applied in many application fields such as Web data mining and information collecting and comparing. 　　Key words： Web ； extraction ； XML ； XSLT 　　1 引言　　随着Internet的发展，Web上的数据呈几何级数增长，要想从Web上获取一条有用信息的难度也越来越大。Web数据的不断增长和异构数据源集成的应用，导致了大量数据驱动型Web页面的产生。目前这些数据多是通过HTML语言来展现，而HTML语言的一个显著特点是结构不规则或不完整，使Web上的数据处于一种无序状态，应用程序无法直接解析、获取并利用Web上海量的信息，给Web应用的建立造成了较大困难。　　为解决从Web文档中抽取所需信息，人们做了大量的研究工作。但由于所处理的对象是HTML文档，它包含了许多显示格式标签，使所需数据信息分散在各种标签中，且分布规律对不同领域、不同应用可能大不相同。因此过去的主要研究工作是在分析领域知识的基础上，用人工或机器辅助的方式制定一些信息抽取规则，然后依据规则从Web页面中抽取所需信息。这就带来两个主要问题，第一，它不是一个通用的抽取系统，而是针对某一领域，还需要制订有效的抽取规则；第二，一旦被抽取的源Web页面结构发生变化，抽取工作可能失效。　　本文提出的方法利用了标准的XML技术来解决针对数据驱动型Web页面信息抽取问题。信息抽取的核心是生成抽取规则，而抽取规则实际上就是用户感兴趣的数据项的定位信息。我们的做法是：首先将样本Web页面转化成为结构良好的XML文档；根据用户的抽取需求从样本XML文档中找到用户感兴趣的区域；并在这个区域内细粒度地查找到具体要抽取的数据项的定位信息；然后对不同样本页面的定位信息进行归纳学习，得出该类页面用户感兴趣数据项的定位信息，并构造出以XSLT文档表示的抽取规则。最终应用该抽取规则进行实际的信息抽取。　　2 基于XML的信息抽取方法　　2.1 方法概述　　基于XML的Web信息抽取系统主要由H