基于XML网页信息提取系统研究与设计.docVIP

下载本文档

1
0
约6.55千字
约 14页
2018-08-28 发布于福建
举报
版权申诉

基于XML网页信息提取系统研究与设计.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于XML网页信息提取系统研究与设计

基于XML网页信息提取系统研究与设计　　摘要:该文提出了一种面向由XML描述的Web文档的基于用户主题信息的模式和数据抽取方法,它利用学习算法从样本文档中提取规则,然后使用匹配算法从目标文档中抽取出数据。该文使用一种改进的解析方法对XML文档进行解析,在模式抽取时使用了顺序覆盖算法从样本XML文档集中训练出模式。在数据抽取算法中,数据抽取算法从解析后的XML文档树中寻找用户所需的信息,它可以高效、准确地找到用户所需数据。　　关键词:XML;数据抽取;文档解析　　中图分类号:TP391文献标识码:A文章编号:1009-3044(2009)26-7327-03 　　　　Study and Design of Network Page Information Extraction System Based on XML 　　YANG Cheng 　　(Shanghai Jiaotong University, Shanghai 200240, China) 　　Abstract: In this paper, a kind of model and data extraction method based on user theme-oriented information facing Web document described by XML was brought forward, it extracted the rule from the sample document using learning algorithm, then extracted data from the target document using matching algorithm. In this paper, an improved resolution method was used to resolve XML document, at mode extraction the sequence covering algorithm was used to train out mode from sample XML document collections. In data extraction algorithm, data extraction algorithm search for information required by user from resolved xml document tree, it could find the data required by user with high efficacy and accurately. 　　Key words: XML; data extract; document parase 　　　　XML是WWW上信息交换的新标准,它支持用户自定义文档标一记,用有序的、嵌套的元素组织成有一定结构的数　　据,是面向数据的,程序可读解这些标记并依据标一记的语义处理数据。虽然目前由于HTML简单易用和表现力强等特点,在Web上仍然占据主流,但是以XML文档为主体的WWW将成为新一代以数据为中心的WWW计算环境。本文研究了从XML描述的特定主题的Web文档中抽取模式和数据的方法。　　　　1 体系结构　　　　本系统以XML网页为研究对象,根据用户的主题信息从样本XML文档中抽取出模式信息,然后根据模式信息从目标XML文档中抽取出数据。整个抽取系统由两部分组成,如图1所示。　　模式抽取部分:它包括一个XML分析器和一个模式抽取器。XML分析器用来解析样本文档,模式抽取器从解析后的　　样本文档集中根据主题信息抽取出关于该类主题文档的一般模式信息; 　　数据抽取部分:由一个数据抽取器组成,它根据已得到的模式信息从大量目标文档中抽取出符合用户需求的数据。　　本系统的研究基于如下假设:每一个所生成的模式只针对某Web数据源中的一类XML页面,每个目标XML文档上应该有用户感兴趣的数据区域,且每个文档上的对应区域具有基本的相同的结构,为每一个主题服务。　　　　2 模式抽取　　　　2.1 解析样本XML文档　　关于XML解析技术,目前的争论非常之多,与许多其它技术问题一样,XML文档的处理需求有着很大的区别,不同的技术实现方案会适合不同的问题域。　　基于树结构的XML解析技术是将结构完整的XML文档定义为一棵树,树是广泛应用的一种数据结构,将XML文档解析成树结构以后,许多成熟的算法都可以用来遍历、搜索、编辑XML文档树。　　基于事件驱动的解析技术主要是围绕着事件源以及事件处理器来工作的。当事件源产生事件