基于XML的WEB数据挖掘研究.docx

下载文档

0
0
约3.87千字
约 5页
2024-09-24 发布于湖北
举报
版权申诉
保障服务

基于XML的WEB数据挖掘研究.docx

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于XML的WEB数据挖掘研究

论文导读：2000年以后，国内外把XML和数据挖掘结合起来的研究逐渐增多。由于XML广泛应用于Web上，因此对基于XML的Web数据挖掘的研究越来越受到重视。XML包含3个要素:DTD(文档类型定义)或XMLSchema、XSL(可扩展样式表语言)和XLL(可扩展链接语)。

关键词：数据挖掘，XML，关联规则，DTD

0．引言

2000年以后，国内外把XML和数据挖掘结合起来的研究逐渐增多。发表论文。由于XML广泛应用于Web上，因此对基于XML的Web数据挖掘的研究越来越受到重视。研究的重点包括:XML表达的Web数据模型，基于Web的半结构化数据存储模型，XML数据查询技术等相关问题。目前对基于XML的Web数据挖掘研究大概可以分为两大流派;一是以美国为首，包括日本，新加波等国，以传统数据库技术为主要技术支撑;另一个是以德国，法国为首，包括英国等，重点研究如何对整个XML文档进行有效的管理。

1．XML的概述

XML的全称为可扩展标记语言，是由互联网协会(W3C)于1998年提出和设计的，是由标准通用标一记语言SGML中派生而来的。XML正在逐步成为第一代Web数据描述和数据交换的标准。XML包含3个要素:DTD(文档类型定义)或XMLSchema、XSL(可扩展样式表语言)和XLL(可扩展链接语)。其中，DTD规定了XML文件的逻辑结构;XSL用来描述文档如何显示，使得数据与其表现形式相互独立;XLL功能更加强大，使用XLL可以多方向链接，而且链接不再局限于页面层级。

XML克服了HTML的种种不足，将互联网上的文档规范化，赋予标记一定的含义，并保留了HTML所具有的简洁、适于传输和浏览的优点，集SGML和HTML的优势于一身，成为下一代互联网发展的核心。XML具备以下可扩展性、结构性、平台独立性、自描述性、灵活性和规范、简单性等优点。

2．数据挖掘概述

数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，简单地说，提取隐含在其中的、人们感兴趣的、潜在有用的信息和知识的过程。数据挖掘是从大量数据中提取或“挖掘”知识。

所谓知识是指概念、规则、模式、规律和约束等。知识。人们把数据看作是形成知识的源泉，通过对数据进行组织、分析、处理，然后应用数据挖掘技术得到人们感兴趣的知识。原始数据可以来自于关系数据库、数据仓库、事务数据库、空间数据库、面向对象数据库，也可以来自于文本数据源、多媒体数据，以及分布在Web上的异构数据源。可以使用不同的方法发现知识，如数学的和非数学的方法，演绛的和归纳的方法等。发现的知识可用于信息管理、查询优化、决策支持和过程控制等，还可以用于数据自身的维护。因此，数据挖掘是一门汇聚了不同领域的交叉学科，包括数据库技术、统计学、机器学习、高性能计算、模式识别、数据可视化、信息检索、图像与信号处理和空间数据分析等。数据挖掘技术把人们对数据的低层应用，如简单查询等，提升到从数据中挖掘知识，对所得知识进行高层运用。因此，它是一种具有强大实际作用和前途的学科。

3．Web数据挖掘概述

Web挖掘是一项综合技术，涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域。不同研究者从自身的领域出发，对Web挖掘的含义有着不同的理解，项目开发也各有其侧重点。我们从更为一般的角度出发，对Web挖掘作如下定义：Web挖掘是指从大量Web文档的集合C中发现隐含的模式P。如果将C看作输入，将P看作输出，那么Web挖掘的过程就是从输入到输出的一个映射￡:C-P。

Web挖掘从数据挖掘发展而来，因此其定义与我们熟知的数据挖掘定义相类似。但是，Web挖掘与传统的数据挖掘相比有许多独特之处。首先Web挖掘的对象是大量、异质、分布的Web文档。其次，Web在逻辑上是一个由文档节点和超链接构成的图，因此Web挖掘所得到的模式可能是关于Web内容的，也可能是关于Web结构的。此外，由于Web文档本身是半结构化或无结构的，且缺乏机器可理解的语义。而传统数据挖掘的对象局限于数据库中的结构化数据，并利用关系表格等存储结构来发现知识，因此有些数据挖掘技术并不适用于Web挖掘，即使可用也需要建立在对Web文档进行预处理的基础之上。

Web数据挖掘是从WWW资源上挖掘信息的过程，是对Web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。它反复使用多种数据挖掘算法从观测数据中确定模式或合理模型，是将数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域。目前，在该研究领域中，Web挖掘一般可以分为三类，即web内容挖掘、Web结构挖掘和Web数据的使用挖掘。

4．基于XML的Web数据挖掘技术

基于XML的新一代WWW环境是直接面对Web数据的，不仅可以很

您可能关注的文档

文档评论（0）

159****1290 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于XML的WEB数据挖掘研究.docx