- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于XMLWEB数据挖掘研究
基于XMLWEB数据挖掘研究
摘要: 数据挖掘指从大量的实际应用数据中提取隐含的信息和知识供用户使用,介绍Web数据挖掘以及种类,同时也阐述HTML转化为XML的模型和XML在Web数据挖掘中的应用,最后通过一个实例说明模型的应用。
关键词: 数据挖掘;XML;WEB
中图分类号:TP311文献标识码:A文章编号:1671-7597(2011)0510077-02
0 引言
随着科技的迅速发展,对因特网上大量产生和出现的信息进行实时、多层次的分析将成为现代社会的竞争趋势。鉴于Web具有的特点:开放性、动态性与异构性等,要从这些分散的、没有统一管理的海量数据中很精确的找到需要的信息成为了现今Web挖掘所要解决的一个难点。然而面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。
以XML为基础的WWW环境是直接面对Web数据的,XML可以兼容原有的Web应用和实现Web中的信息共享与交换。由于XML技术的出现,为互联网上的数据交换提供了一个标准, 同时从数据的角度来说,XML技术提供了一个可以表示数据内容以及数据所代表的意义的手段,因此基于XML技术进行数据挖掘为数据挖掘的研究提供了新的机遇。实践中关于XML的数据挖掘的研究比较少,本文就基于XML的数据挖掘进行了一定的研究。
1 Web数据挖掘以及种类
1.1 Web数据挖掘
Web数据挖掘可以广义地定义为从Internet中发现和分析有用的信息。从另一个角度看Web数据挖掘指从大量Web文档结构和使用的集合C中发现隐含的模式P。利用数学中的相关知识,如果将C看作输入,P看作输出,那么Web挖掘的过程就是从输入到输出的一个映射:CP。
由于Web上的数据没有特定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web上的数据虽具有一定的结构性,但因自述层次的存在,从而是一种非完全结构化的数据,这也被称之为半结构化数据。
1.2 Web数据挖掘的种类
Web数据挖掘可以分为几种,大致的分类见图1。
2 XML及其特点
XML(eXtenSibleMarkupLanguage)的全称为可扩展标记语言,是由互联网协会(W3e)于1998年提出和设计的,是由标准通用标记语言sGML(standardGeneralizedMarkupLanguage)中派生而来的。XML正在逐步成为第一代Web数据描述和数据交换的标准。
XML克服了HTML不足的地方,将互联网上的文档规范化,赋予标记一定的含义,并保留了HTML所具有的简洁、适于传输和浏览的优点,集SGML和HTML的优势于一身,成为下一代互联网发展的核心。XML的优点可以大致的概括为以下几点:
1)平台独立性:因为XML使用的是普通文本,而不是二进制的数据格式,具有跨平台的优点,运用XML可以有效地解决新旧系统平台、不同应用系统平台之间或者不同数据源之间的数据共享与交互问题。
2)可扩展性良好:XML允许程序员制定自己的标记集,允许一个行业或某一个特定领域制定在本范围内的通用标记集。另外,由于XML的数据定义和数据本身也是分离的,这就使得XML的标记集不会无限扩大。
3)自描述性:XML以显示语句和隐式嵌套结构描述结构化信息,任何应用都可以方便访问其中的数据并清楚地了解到标记内容的含义,对于不同应用间的数据交换,自描述性起着很大的作用,而且这种交换是不以预先规定一组数据结构定义为前提,因此,具备很强的开放性。
3 HTML转化为XML的模型
本模型的原理是把获得的HTML格式的Web页转换成更好的XML格式的文档。转换的过程的流程大致如下:l)利用人工输入的方法,给出查询的主题,查找出一些符合条件的Web页,这些Web页就是数据源。2)通过Tidy工具进行数据转化,删除那些无用的信息,把HTML文档中含有的大量与主题无关的标记从HTML文档中过滤出去,改正HTML文档中的常见错误,生成格式编排良好的等价XHTML文档。3)在XHTML文档中查找数据的引用点,应用XPath或XSL技术识别引用点抽取数据,利用XML文档来保存这些数据,当把需要的数据都转换好之后,则可以合并这些XML文件到外部文件系统进行存储。整个的处理过程如图2所示:
XML可以在Web中得到很好的应用,就在于XML在三层架构上为数据处理提供了好的方法。三层模型的优点在于可以升级,利用升级的三层模型,XML可以从数据库的数据中产生出来,使用XML结构化的数据可以从商业规范和表现形式中分离出来。数据的集成、发送、处理和显示模型见图3。
XML在Web挖掘中的应用主要有以下四类:
1)用于
原创力文档


文档评论(0)