网站大量收购闲置独家精品文档,联系QQ:2885784924

基于XML的Web数据挖掘及应用模式研究 .pdfVIP

基于XML的Web数据挖掘及应用模式研究 .pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于XML的Web数据挖掘及应用模式研究

摘要:本文分析了Web网页的数据挖掘最新技术及发展方向,介绍

了基于XML的Web数据挖掘的特点,提出了基于XML的数据抽取技

术,最终得到所需的数据并通过一个通用的应用模式进行挖掘的全过

程。

关键词:数据挖掘Web挖掘XML

Web技术的飞速发展,在促使人们信息交流的方式变的更加方便

快捷的同时,也积累了大量的数据,如何发现并利用隐藏在这些数据背

后的知识就成为当前信息技术领域研究的热点问题之一。Web数据挖

掘就是能够满足这一要求的一种技术,即从Web上的海量数据中提取

对人们有用信息并为人们所利用。然而Web上的数据不同于传统数

据库中的结构化数据,Web上的数据大多是一种无结构或半结构化的

数据。如何有效的对Web数据进行清理和集成是Web数据挖掘领域

中一个很重要的研究课题。

目前Web挖掘的应用存在着两个重要的困难。首先,现有的应用

模式大多缺乏通用性。往往只能根据现实的情况设计、定制针对性的

解决方案,而难以由用户自己运用成形的软件模块,设定数据参数以解

决问题。其次,数据的预处理和后处理工作一直是困扰挖掘应用的一

个难题。数据结构的复杂性以及异质系统之间的数据耦合问题得不到

妥善的解决,使得挖掘应用难以顺利展开。上述问题的主要原因在于

现有的应用模式未能有效地对挖掘算法进行有效地封装,因而便无法

有效地实现通用的数据表达和接口规范。本文将详细讨论在Web环

境下,如何对无结构或半结构化的Web数据进行数据集成的问题,并提

出了一种基于XML的挖掘应用模式。该模式充分利用了XML在数

据描述能力、异质系统数据交换能力以及可扩展性方面的优势,为解

决上述问题提供一个框架。

1基于XML技术进行数据挖掘

XML是一种中介标示语言(meta-markuplanguage),提供资料的结

构和语义信息,使计算机和服务器能及时处理多种形式的信息。运用

XML的扩展功能不仅能从Web服务器下载大量的信息,还能大大减少

网络业务量。它以一种开放的自我描述方式定义了数据结构,在描述

数据内容的同时能突出对结构的描述,从而体现出数据之间的关系。

这样所组织的数据对于应用程序和用户都是友好的、可操作的。

XML可以以简单开放的方式描述结构化数据,而且数据显示与内

容分开,是数据更合理的表现出来。由此可见XML为在Web上的数

据查询和抽取提供了一个契机,这正是Web挖掘所需要的。本文介绍

的Web数据挖掘技术,采用以下方法来实现数据抽取:首先将HTML

文档转换成XML格式,利用XML格式规范的优点,再从XML文档中

更加有效地分析和处理数据。重点在于如何通过基于XML的数据抽

取技术从Web网页上抽取结构化数据。

根据以上思路,将基于XML技术的Web数据挖掘分为以下几个

步骤,如图1所示:

从互联网上确定目标Web网页,获得HTML文档;将HTML文档

转换成XHTML或XML格式;对XHTML或XML格式的文档进行数

据抽取;对抽取的数据合并为XML数据文件;将提取出的XML数据写

入关系数据库,以备应用程序挖掘调用。

1.1获得目标网页的Web文档

确定目标信息源即Web挖掘所要挖掘的Web站点。目前网络上

已经有很多高效、可靠的网络爬行工具可用,因此可利用这些工具方

便的获取Web页面的HTML文档。

1.2将Web文档转换成XML格式

确定了信息源后,我们在抽取过程中的第一步就是将数据从

HTML转换成XML。本过程将通过一个构造名为XMLHelper的Java

类来完成,

文档评论(0)

180****4714 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档