Web数据的半结构.DOC

下载文档

2
0
约7.38千字
约 5页
2017-08-24 发布于天津
举报
版权申诉
保障服务

Web数据的半结构.DOC

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Web数据的半结构

基于Web的数据仓库的研究何雪梅唐常杰王利强张天庆四川联合大学计算机系成都（610064）何摘要本文分析了Web数据的特点以及由此引起的Web数据仓库的困难，并以我们建立的Web数据仓库原型为例讨论了Web数据仓库的解决方法，提出并实现了从Web中提取数据的Wrapper算法。关键词数据仓库环球网半结构 RESEARCH ON WEB-BASED DATA WAREHOUSE He Xuemei,Tang Changjie,Wang Liqiang,Zhang Tianqing Sichuan Union University, Computer Science Department ,Sichuan,Chengdu 610064 Abstract Based on the features of web data , a prototype of web data warehouse—W_Warehouse is proposed. The wrapper algorithm to extract data from web is also implemented. Key Words Data Warehouse, WWW, Semistructure 1引言数据仓库是近几年来出现的、发展迅速的一种技术。数据仓库把一个单位的历史数据收集到一个中央仓库中以便于处理，它是支持决策过程的、面向主题的、随时间而变的、持久的数据集合。调查研究表明，大多数企业并不缺乏数据，而是受阻于过量的冗余数据和数据不一致。而且它们变得越来越难于访问、管理和用于决策支持，信息中心面临着开发决策支持应用的需求被大量积压，所要开发的应用变得越来越复杂和耗费人力，数据仓库正是解决这一矛盾的工具。近年来，WWW成为当今网络上的信息主体,其信息传送和存储量均超过其它类型协议的工具(传送量占21%,存储量占26.3%)。WWW是一个巨大的数据源，人们自然产生了将 WWW和数据仓库相互转换的需求，并形成了当前Web数据库的研究热点。 本文分析Web数据特点，构建了一个能够获取Web数据的数据仓库原型，详细讨论了其中关键的Wrapper算法。 2 Web数据的半结构  Web中有大量丰富的数据：文本、图片、声音、图像等，这些数据多存在于HTML超文本文件中；没有严格的结构及类型定义，被称为半结构化的（semi-structured）数据。目前尚没有一个关于半结构化的精确定义，其内涵依赖于用户所处理的问题及观察数据的角度。图1是一个Web上的半结构数据的例子。  在Web中主要存在两种结构。一种是超文本结构，依据此结构，逻辑上相关联的结构信息在物理上被链接，利用标签A能够将文件以及图象的区域连接到本地计算机或Internet其他地方的文档中去。另一种是由HTML文本特点决定的文本组织结构,通过HTML语言，用不同的方法将数据组织在文本中。例如，给定一个HTML页，通过HTML标签容易识别该页的标题（title)或一些复杂的结构，如表格(table)、项目列表(list)等。 Web数据仓库用户感兴趣的往往是这些半结构化的数据。在HTML文档中，数据所在的行一般是一些没有完整的语法结构的句子片段，从这种文档中提取数据不能简单套用传统的信息提取的方法。信息提取(Information Extraction)的目标是根据文档内容来概括、总结文档。它涉及自然语言处理(Natural Language Processing ,NLP)的技术，主要任务是从文本中识别预先定义的信息类型，如用在商业领域的一个信息提取系统会提取公司名称、产品、设备、商业数据等。用自然语言处理的方法进行信息提取要求所处理的文本信息具有完整的句法、语法结构。因为Web半结构数据的特点给Web数据仓库带来了先天的困难，对此我们提出一种新的方法进行信息提取。图1 来源 3 Web数据模型及其视图研究表明，一般不能简单地使用自然语言处理的方法来进行Web数据的提取。根据Web数据的结构特点我们将传统的数据库技术扩展到Web数据，对Web数据源添加数据库模型的概念，引入新的视图定义语言并在其上获取数据。 3.1 数据模型 每一个Web页可视为由URL唯一确定的对象，它包含一个属性集合，这些属性对应于Web页中相应的信息段。属性的类型可以是文本(text)、图象(image)、链点(anchor)等简单类型；也可以是复杂类型，如具有嵌套结构的列表等。复杂类型属性的值是多值的，如列表属性的值又可以是文本，图象，链点等。一个Web页的数据模型可以表示为： P(