- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
基于XML的WEB数据挖掘研究
?
?
论文导读:2000年以后,国内外把XML和数据挖掘结合起来的研究逐渐增多。由于XML广泛应用于Web上,因此对基于XML的Web数据挖掘的研究越来越受到重视。XML包含3个要素:DTD(文档类型定义)或XMLSchema、XSL(可扩展样式表语言)和XLL(可扩展链接语)。
关键词:数据挖掘,XML,关联规则,DTD
?
0.引言
2000年以后,国内外把XML和数据挖掘结合起来的研究逐渐增多。发表论文。由于XML广泛应用于Web上,因此对基于XML的Web数据挖掘的研究越来越受到重视。研究的重点包括:XML表达的Web数据模型,基于Web的半结构化数据存储模型,XML数据查询技术等相关问题。目前对基于XML的Web数据挖掘研究大概可以分为两大流派;一是以美国为首,包括日本,新加波等国,以传统数据库技术为主要技术支撑;另一个是以德国,法国为首,包括英国等,重点研究如何对整个XML文档进行有效的管理。
1.XML的概述
XML的全称为可扩展标记语言,是由互联网协会(W3C)于1998年提出和设计的,是由标准通用标一记语言SGML中派生而来的。XML正在逐步成为第一代Web数据描述和数据交换的标准。XML包含3个要素:DTD(文档类型定义)或XMLSchema、XSL(可扩展样式表语言)和XLL(可扩展链接语)。其中,DTD规定了XML文件的逻辑结构;XSL用来描述文档如何显示,使得数据与其表现形式相互独立;XLL功能更加强大,使用XLL可以多方向链接,而且链接不再局限于页面层级。
XML克服了HTML的种种不足,将互联网上的文档规范化,赋予标记一定的含义,并保留了HTML所具有的简洁、适于传输和浏览的优点,集SGML和HTML的优势于一身,成为下一代互联网发展的核心。XML具备以下可扩展性、结构性、平台独立性、自描述性、灵活性和规范、简单性等优点。
2.数据挖掘概述
数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,简单地说,提取隐含在其中的、人们感兴趣的、潜在有用的信息和知识的过程。数据挖掘是从大量数据中提取或“挖掘”知识。
所谓知识是指概念、规则、模式、规律和约束等。知识。人们把数据看作是形成知识的源泉,通过对数据进行组织、分析、处理,然后应用数据挖掘技术得到人们感兴趣的知识。原始数据可以来自于关系数据库、数据仓库、事务数据库、空间数据库、面向对象数据库,也可以来自于文本数据源、多媒体数据,以及分布在Web上的异构数据源。可以使用不同的方法发现知识,如数学的和非数学的方法,演绛的和归纳的方法等。发现的知识可用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门汇聚了不同领域的交叉学科,包括数据库技术、统计学、机器学习、高性能计算、模式识别、数据可视化、信息检索、图像与信号处理和空间数据分析等。数据挖掘技术把人们对数据的低层应用,如简单查询等,提升到从数据中挖掘知识,对所得知识进行高层运用。因此,它是一种具有强大实际作用和前途的学科。
3.Web数据挖掘概述
Web挖掘是一项综合技术,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域。不同研究者从自身的领域出发,对Web挖掘的含义有着不同的理解,项目开发也各有其侧重点。我们从更为一般的角度出发,对Web挖掘作如下定义:Web挖掘是指从大量Web文档的集合C中发现隐含的模式P。如果将C看作输入,将P看作输出,那么Web挖掘的过程就是从输入到输出的一个映射£:C-P。
Web挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但是,Web挖掘与传统的数据挖掘相比有许多独特之处。首先Web挖掘的对象是大量、异质、分布的Web文档。其次,Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的。此外,由于Web文档本身是半结构化或无结构的,且缺乏机器可理解的语义。而传统数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不适用于Web挖掘,即使可用也需要建立在对Web文档进行预处理的基础之上。
Web数据挖掘是从WWW资源上挖掘信息的过程,是对Web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。它反复使用多种数据挖掘算法从观测数据中确定模式或合理模型,是将数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域。目前,在该研究领域中,Web挖掘一般可以分为三类,即web内容挖掘、Web结构挖掘和Web数据的使用挖掘。
4.基于XML的Web数据挖掘技术
基于XML的新一代WWW环境是直接面对Web数据的,不仅可以很
您可能关注的文档
- 设备油液监测技术现状与发展研究.docx
- 元认知策略培训在大学英语听力教学中的实证研究-元认知意识.docx
- 基于任务情境的学习活动设计之拙思.docx
- 35kV及以下可分离式电缆T型头绝缘性能现场测试装置设计分析.docx
- 优质护理对老年慢阻肺患者的肺功能及生活质量的影响研究.docx
- 体育游戏在初中体育教学中的运用.docx
- 建筑工程土建施工现场管理的优化策略论述.docx
- 专项护理在肺部感染性疾病患者中的应用体会.docx
- 中日医疗政策对比.docx
- 天然气场站电气自动化设备安全运行的对策.docx
- 高考英语一轮复习课件(人教版新高考新教材)必修第二册 必备知识预习案 UNIT 2 WILDLIFE PROTECTION.pdf
- 高考英语一轮复习课件(人教版新高考新教材)必修第一册 UNIT 2 TRAVELLING AROUND.pdf
- 高考英语一轮复习课件(人教版新高考新教材)选择性必修第一册 必备知识预习案 UNIT 5 WORKING THE LAND.pdf
- 高考英语一轮复习课件(人教版新高考新教材)必修第一册 必备知识预习案 UNIT 2 TRAVELLING AROUND.pdf
- 高考英语一轮复习课件(人教版新高考新教材)必修第一册 必备知识预习案 UNIT 4 NATURAL DISASTERS.pdf
- 高考英语一轮复习课件(人教版新高考新教材)必修第三册 必备知识预习案 UNIT 1 FESTIVALS AND CELEBRATIONS.pdf
- 高考英语二轮复习课件(人教版新高考新教材)专题七 概要写作.pptx
- 高考英语一轮复习课件(人教版新高考新教材)必修第二册 必备知识预习案 UNIT 3 THE INTERNET.pdf
- 高考英语一轮复习课件(人教版新高考新教材)选择性必修第一册 必备知识预习案 UNIT 4 BODY LANGUAGE.pdf
- 高考英语一轮复习课件(人教版新高考新教材)选择性必修第三册 必备知识预习案 UNIT 1 ART.pdf
文档评论(0)