基于XMLWeb分布式数据挖掘系统研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于XMLWeb分布式数据挖掘系统研究

基于XMLWeb分布式数据挖掘系统研究   摘要:在目前很多网站都是基于HTML的,要对Web进行挖掘面临很多困难。XML的出现给基于Web的数据挖掘带来便利。利用XML和分布式数据挖掘技术将分布在世界各地的Web数据映射为结构化的数据,建立一个具有基本挖掘功能的分布式挖掘模型,并给出实现方案。   关键词:Web;数据挖掘;分布式;Agent   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)13-2964-03   Internet出现以来,以其丰富的资源吸引了大量的用户。随着计算机和网络技术的发展,Web服务越来受欢迎,Web页面的数量也在以惊人的速度增涨。而蕴含在这些Web中的知识却没能得到充分的利用。近年来,数据挖掘与Web的研究成为了两大研究课题,而两者的结合更是构成了一个新的课题,即Web数据挖掘研究。Internet是一个开放性的全球分布式网络,Web分布在全世界的各个地方,且Web上的资源呈现出多样性、半结构化或非结构化等特点,这都给Web数据挖掘带来了一定的困难。XML能够将不同来源的数据很容易结合在一起,提供易于使用的数据,为Web数据挖掘带来了新的契机。结合Web的分布式特性及Web数据的特点,提出一种基于XML的Web分布式数据挖掘模型。   1 Web数据挖掘技术   1.1 Web数据挖掘概念   数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们感兴趣的、潜在有用的信息和知识的过程[1,2]。随着Internet的发展,越来越多的服务和信息通过Web的形式提供给使用者。这使得Web数据挖掘日益受到重视。相对在传统的数据库进行数据挖掘而言,Web上的数据挖掘难度较大,体现出以下几个特点:   1)半结构化是Web上数据的最大特点。   2)Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。   3)Web页面散布在世界各地的Web服务器上,形成了分布式数据源。   4)Web是一个动态性极强的信息源,不仅增长速度快,而且信息也在不断的快速更新,各站点的链接信息和访问记录的更新非常频繁。   5)Web包含了各种信息和资源,有文本数据、超文本数据、图表、图像、音频和视频等,具有多样性和复杂性的特点。   1.2 XML基本概念   XML全称为可扩展标记语言,是由标准通用标记语言SGML派生而来的,是由国际互联网协会在1998年正式提出来的[3]。XML是一种跨平台标准,可运行在任何平台和操作系统上。XML具备自描述性、可扩展性、结构性、内容和表现分离、平台独立性、灵活性、规范、简单等特点。使用XML能够将不同来源的数据很容易地结合在一起,为解决Web数据挖掘的难题带来了便利。   2 分布式数据挖掘的概念   分布式数据挖掘是数据挖掘技术和分布式计算的有机结合,主要用于分布式环境下的数据模式发现。   由于Web页面散布在世界各地的服务器上,数据量大,如果将这些数据集中到一起进行集中式数据挖掘将产生明显的缺陷:首先,把大量数据集中到一起响应时间过长,浪费大量网络带宽资源;其次,挖掘算法通常需要大量的计算资源,这对执行挖掘的计算机的性能要求高;此外,数据的安全性、私有性等都会受到威胁和破坏。为了挖掘分散在Internet上的Web页面信息,必须利用分布式数据挖掘技术。   Agent技术是在人工智能、网络技术尤其是Internet发展以及决策支持系统等技术基础上发展起来的。Agent能自我控制其状态和行为,能在无人或其它程序介入时操作和运行[4]。由Agent完成复杂的信息检查、分析和处理工作,形成智能化的数据仓库。并且多个Agent之间能进行相互协作,共同完成复杂的任务。移动Agent可以自主地在异构的网络上,按照一定规则自行移动、寻找所需资源。可以利用具有移动性的Agent在网络上搜索Web信息。由于具有这些特点,Agent技术在分布式数据挖掘中得到越来越多的应用。   3 基于XML的Web分布式数据挖掘系统模型   3.1 基本原理   本模型的基本思想是,通过把现有的Web页面转换成XML格式,通过处理XML结构的数据以获取感兴趣的信息,将这些信息存储在数据库中备用。也可根据需要直接从Web上获取转换为XML的信息。   1)用户层   该层提供用户与系统进行交互的接口,主要完成用户身份验证、用户输入的数据采集、挖掘的过程和输出最终结果等。用户可以通过人机接口进行选择挖掘模型、数据源、知识类型、指定特定模型的相关参数等操作。   2)系统控制层   系统控制层控制整个系统的有效运行,由用户管理Agent、调度控制Agent、优化Agent

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档