基于XML的WEB数据挖掘研究.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于XML的WEB数据挖掘研究

?

?

论文导读:2000年以后,国内外把XML和数据挖掘结合起来的研究逐渐增多。由于XML广泛应用于Web上,因此对基于XML的Web数据挖掘的研究越来越受到重视。XML包含3个要素:DTD(文档类型定义)或XMLSchema、XSL(可扩展样式表语言)和XLL(可扩展链接语)。

关键词:数据挖掘,XML,关联规则,DTD

?

0.引言

2000年以后,国内外把XML和数据挖掘结合起来的研究逐渐增多。发表论文。由于XML广泛应用于Web上,因此对基于XML的Web数据挖掘的研究越来越受到重视。研究的重点包括:XML表达的Web数据模型,基于Web的半结构化数据存储模型,XML数据查询技术等相关问题。目前对基于XML的Web数据挖掘研究大概可以分为两大流派;一是以美国为首,包括日本,新加波等国,以传统数据库技术为主要技术支撑;另一个是以德国,法国为首,包括英国等,重点研究如何对整个XML文档进行有效的管理。

1.XML的概述

XML的全称为可扩展标记语言,是由互联网协会(W3C)于1998年提出和设计的,是由标准通用标一记语言SGML中派生而来的。XML正在逐步成为第一代Web数据描述和数据交换的标准。XML包含3个要素:DTD(文档类型定义)或XMLSchema、XSL(可扩展样式表语言)和XLL(可扩展链接语)。其中,DTD规定了XML文件的逻辑结构;XSL用来描述文档如何显示,使得数据与其表现形式相互独立;XLL功能更加强大,使用XLL可以多方向链接,而且链接不再局限于页面层级。

XML克服了HTML的种种不足,将互联网上的文档规范化,赋予标记一定的含义,并保留了HTML所具有的简洁、适于传输和浏览的优点,集SGML和HTML的优势于一身,成为下一代互联网发展的核心。XML具备以下可扩展性、结构性、平台独立性、自描述性、灵活性和规范、简单性等优点。

2.数据挖掘概述

数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,简单地说,提取隐含在其中的、人们感兴趣的、潜在有用的信息和知识的过程。数据挖掘是从大量数据中提取或“挖掘”知识。

所谓知识是指概念、规则、模式、规律和约束等。知识。人们把数据看作是形成知识的源泉,通过对数据进行组织、分析、处理,然后应用数据挖掘技术得到人们感兴趣的知识。原始数据可以来自于关系数据库、数据仓库、事务数据库、空间数据库、面向对象数据库,也可以来自于文本数据源、多媒体数据,以及分布在Web上的异构数据源。可以使用不同的方法发现知识,如数学的和非数学的方法,演绛的和归纳的方法等。发现的知识可用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门汇聚了不同领域的交叉学科,包括数据库技术、统计学、机器学习、高性能计算、模式识别、数据可视化、信息检索、图像与信号处理和空间数据分析等。数据挖掘技术把人们对数据的低层应用,如简单查询等,提升到从数据中挖掘知识,对所得知识进行高层运用。因此,它是一种具有强大实际作用和前途的学科。

3.Web数据挖掘概述

Web挖掘是一项综合技术,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域。不同研究者从自身的领域出发,对Web挖掘的含义有着不同的理解,项目开发也各有其侧重点。我们从更为一般的角度出发,对Web挖掘作如下定义:Web挖掘是指从大量Web文档的集合C中发现隐含的模式P。如果将C看作输入,将P看作输出,那么Web挖掘的过程就是从输入到输出的一个映射£:C-P。

Web挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但是,Web挖掘与传统的数据挖掘相比有许多独特之处。首先Web挖掘的对象是大量、异质、分布的Web文档。其次,Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的。此外,由于Web文档本身是半结构化或无结构的,且缺乏机器可理解的语义。而传统数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不适用于Web挖掘,即使可用也需要建立在对Web文档进行预处理的基础之上。

Web数据挖掘是从WWW资源上挖掘信息的过程,是对Web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。它反复使用多种数据挖掘算法从观测数据中确定模式或合理模型,是将数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域。目前,在该研究领域中,Web挖掘一般可以分为三类,即web内容挖掘、Web结构挖掘和Web数据的使用挖掘。

4.基于XML的Web数据挖掘技术

基于XML的新一代WWW环境是直接面对Web数据的,不仅可以很

您可能关注的文档

文档评论(0)

159****1290 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档