基于XML技术WEB信息收集方法研究.docVIP

下载本文档

3
0
约5.2千字
约 11页
2018-08-28 发布于福建
举报
版权申诉

基于XML技术WEB信息收集方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于XML技术WEB信息收集方法研究

基于XML技术WEB信息收集方法研究　　摘要　　可扩展标记语言XML技术的出现，为Web的信息抽取和应用提供强有力的支持。我们可以把页面文档解析成DOM树的结构，对页面的操作转化为对DOM树的处理，然后采用XPath路径表达式定位DOM树中节点；XSLT是XML文档的转换语言，有了它我们可以对已知XML文档编写抽取规则，实现XML文档与Web页面的转换。本文结合XML技术优势实现对Web网页的信息抽取，构建了一个基于XML的Web信息抽取系统，提出了基于最小DOM树的信息定位方法。　　【关键词】XML技术 WEB 信息收集方法　　随着World Wide Web的广泛应用，互联网的信息资源呈几何级数增长，人们通常是在搜索引擎中输入相关的关键字，而搜索引擎返回一系列的链接，用户则需要打开返回的链接页面来寻找自己需要的信息，然而，由于搜索引擎先天的缺陷，在返回的大量结果中存在着许多不相关的信息，有时候甚至花费大量的精力和时间，却找不到需要的信息，淹没在信息的海洋里，让人们感到“到处是水，却没有一滴可喝”，研究表明随着Web信息的增长，人们寻找自己需要信息的难度也在增大，因此如何从浩瀚的Web数据中准确有效地收集用户感兴趣的信息成为急需解决的问题。　　1 Web信息收集技术　　1.1 Web信息收集　　根据信息收集中收集对象的不同，信息收集分为三类：　　（1）自由文本，即合乎自然语言语法规则的文本。　　（2）结构化的文本，它是按照严格的格式生成的文本，如数据库中的数据。　　（3）半结构化的文本，它介于自由文本和结构化文本之间，没有严格的格式，也不完全符合自然语言语法的一种文本。对结构化的文本的信息收集最为简单，一般情况下，事先已知文本的格式，或者是有规律可循，直接编写收集规则即可。　　目前，国内外学者从不同的角度研究Web上的信息收集，并构造出一些实用的信息收集系统。Web信息收集是指从互联网中收集出用户感兴趣的信息，并以清晰格式化的形式输出，从网站中收集信息的工作通常由一种叫做Wrapper即分装器（也译作包装器）的组件完成。分装器是一个程序，用于从特定的信息源中收集相关内容，并以特定形式加以表示。在数据库环境下，分装器是软件的组成部分，负责把数据和查询请求从一种模式转换成另外一种模式。在因特网环境下，分装器的目的是把网页中储存的信息用结构化的形式储存起来，以方便进一步的处理，通常，一个分装器只能处理一种特定的信息源。从几个不同信息源中收集信息，需要一系列的分装器程序库。由此可见，分装器是Web信息收集的关键，不同的Web收集系统的差别往往是分装器构成不同。　　Web信息的收集把互联网作为其信息源，从中收集有用的或用户感兴趣的信息，是对互联网信息的筛选，和普通的搜索引擎相比，Web信息收集的收集结果更加的准确和细致，用户可以直接得到所需要的信息，而不需要想使用搜索引擎那样点击链接查看相关的页面。它的信息源是广阔的互联网信息，因此存在着无限的可能性和广阔的发展空间。　　1.2 Web信息收集常见方法　　1.2.1 基于自然语言处理方式的信息收集　　信息收集最初源于对文本的收集，是自然语言处理领域中的一个子领域。基于自然语言处理方式的信息收集借鉴了自然语言中对文本处理的相关技术，把待收集的信息作为文本处理，进行句法分析、语义标注和专用对象的识别，利用子句结构、短语和子句间的关系，把文本分割成多个有意义的句子，对句子的组成部分进行标识，经过标注和分析的文本与事先制定的语义模型或语义规则匹配。语义模型或者语义规则有多种方式获得，可以由人工编写，也可以从已经标注的语料库中自动学习获得。基于自然语言处理方式的信息收集用于对Web信息的收集时，把Web文档视为文本文档进行处理，适用于Web中包含大量的文本，并且这些文本是符合文法。但此方法的缺点也很明显，在用此方法进行信息收集的过程中忽略了Web文档的层次特征，收集规则表达能力有限，健壮性也没有保证。目前采用这种原理的典型系统有RAPIER、SRV、WHISH。　　1.2.2 基于包装器归纳学习的信息收集　　包装器是一种基于规则的信息收集模型，有收集规则和规则到数据源的映射组成。该方法在包装器的快速自动构造方面取得很大进步，能够自动分析出待收集信息在页面中的结构特征并实现收集，用归纳学习方法生成收集规则。HTLR 类包装器对需收集的Web页限制很多，要求属性的左右边界字符串在各个元组中相同，这影响了其表达能力和适用范围。许多收集系统在归纳学习过程中加入启发式规则或上下文规则，有效的提高收集的效率，也可以获得较好的查全率和查准率。但基于归纳学习的信息收集技术仍然需要用户提供学习实例，而且如果待收集网页书写不规范或者待收集