- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络信息抽取技术分析和比较
网络信息抽取技术分析和比较
摘要:随着互联网爆炸式的发展和普及,网络信息已经成为了一种宝贵的信息数据资源。海量的网络数据使得数据分析与挖掘系统进入了一个新时代,越来越多的网络应用系统需要对来自不同数据源的结构化数据进行抽取、挖掘和整合。然而,由于网页文档的半结构化性质,网页上呈现的数据往往不能被机器自动地抽取和理解,因此,网络信息抽取的研究目标在于提取网页的结构化数据。互联网数据的海量规模与高度异构,为网络信息抽取带来了巨大的挑战。分析和总结了近年来网络信息抽取相关的研究与工作,剖析了各个工作的优势和局限,并进一步作了综合的分类与比较。
关键词:网络信息抽取; 包装器; 模板
中图分类号:TP391 [KG*2]文献标识码:A[KG*2][HT5”H]文章编号:2095-2163(2013)05-0024-05
0引言
互联网已经成为一种公用信息的重要载体。在过去的二十年间,随着互联网的爆炸式的发展和大众型普及,涌现了众多应用网站,如新闻、博客、微博、社交网络、点评网站、在线论坛等。数量庞大的新闻媒体、商家机构和普通用户写手正不断、不停地在网络上发布信息,构成了一个海量的、宝贵的知识信息资源。
尽管互联网已成为庞大的数据金矿,但HTML网页——这一网络信息主要呈现方式——的设计初衷是供用户阅读,而非由机器读取,人们对网络数据信息的获取都仅限于网页浏览或是搜索引擎检索[1]。这种表层的网页文本获取方式仅适于简单的文档检索任务,无法胜任更复杂、更精确的网络数据分析与挖掘任务。例如构建社区论坛的专家搜索系统,需要抽取帖子的发帖人、发帖时间、帖子内容等元数据信息。图 1为网络论坛页面的示意图,共包含两个论坛帖子(虚线框所示,称为数据记录),每个帖子又可分为若干数据单元,其含义由相应的语义标签进行表明和指示(如时间、作者、内容等)。数据记录、数据单元及单元的语义标签,即构成了网页呈现的结构化数据,如图 2所示。基于网络数据的大多数搜索和挖掘应用,都依赖于由输入网面转换而来的结构化的数据。由互联网网页中抽取结构化数据的过程称为网络信息抽取(Web Information Extraction)[1,2]。
网络信息抽取任务不同于传统的信息抽取(IE)任务。传统信息抽取的目的在于从自由文本中抽取数据,使用自然语言处理(Natural Language Processing)的技术,如词性标注、语法分析等。而网络信息抽取则从网页文档中抽取数据。网页文档是一种半结构化文档,通常是由服务器端的后台程序或脚本自动生成,含有特定的HTML标签作为分隔标志,但整体缺乏严格且统一的语法和语义信息,包含了表现上的一定自由度。不同于高度结构化的文档(如XML),半结构化的文档并不能由机器直接读取。而互联网数据的海量规模与高度异构特征,也为网络信息抽取带来了巨大的挑战。因此,开展网络信息抽取的研究工作具有相当的必要性和实用性。
1主要工作介绍和分析按照模型方法的自动化程度,可以将网络信息抽取工作
分为人工化、半自动化和全自动化三类。本节将从这三个方面,根据模型的提出时间,依次介绍相关工作,并分析各自的优势和局限
1.1人工化的网络信息抽取方法
早期的网络信息抽取工作,依靠人工编写的过程化程序来完成,如TSIMMIS[3],Minerva[4]等。编写的程序依赖于特定的网页结构,无法移植于其它结构的网页,且需要一定的计算机程序专业知识,限制了方法的应用和推广。因此,这种方法并不适于大规模的网络信息抽取工作,已逐渐丧失其使用价值。
[HTH]1.2半自动化的网络信息抽取方法[HTSS]
半自动化的方法,需要一定量的标注数据,因此也需要一定的人力成本。然而与人工化的方法不同,半自动化方法的标注任务简单直观,标注员经过简单训练即能胜任,并不需要计算机程序设计的专业知识,所以半结构化的方法能收集得到较大规模的标注数据,处理更大规模的抽取任务。
一类典型的半自动化方法,是利用标注数据,通过归纳推导,构建得到包装器(Wrapper)。包装器是信息集成系统中的一个模块,能抽取网页数据并将其转换为结构化数据(图 2)。具体可分为两种模式:基于抽取模式规则[5,6]和基于模板树匹配[7,8]。这两种模式均刻画了网页的模板结构,但却只适用于相同结构的网页,因此被称作(网站)模板相关的工作。当处理新结构的网站时,仍然需要再次标注。另外,模板的检测和维护也是重要的研究问题[9]。只是数据标注和模板维护都需要巨大的成本,因此,这种方法不适用于大规模的网络信息抽取工作。
为了克服模板化方法对网页结构的高依赖性,近年来半自动化的研究工作相继提出了(网站)模板无关的方法[10,11]。利用机器学习模型理
文档评论(0)