XML 在Web 数据挖掘中的应用探讨.docVIP

下载本文档

0
0
约3.77千字
约 6页
2018-03-16 发布于北京
举报
版权申诉

XML 在Web 数据挖掘中的应用探讨.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

XML 在Web 数据挖掘中的应用探讨　　摘要：当今计算机领域，基于Web数据挖掘已成为广泛研究的课题。目前许多网站的构建都是应用HTML，这就会给Web数据挖掘带来了诸多困难，但XML的出现却为Web数据挖掘带来了较大便利。该文介绍了XML应用于Web数据挖掘的理论和方法，对Web数据挖掘的理论研究有一定的参考价值。　　关键词： XML；WEB数据挖掘；半结构化　　中图分类号：TP393.2 文献标识码：A 文章编号：1009-3044(2011)08-1723-02 　　Application Discussion of XML in Web Data Mining 　　LIU Yong1, XU Li-bo1, YU Wen-bo2, MA Li1 　　(1.Computer Center, Shenyang Institute of Engineering, Shenyang 110136, China; 2.Department of Electrical of Engineering, Shenyang Institute of Engineering, Shenyang 110136, China) 　　Abstract: Todays computer field, Web data mining has become widespread of research. At present many website construction is applied HTML, which would give Web data mining brings difficulties, but the XML appear truly for Web data mining brings many convenient. This paper introduces the application of data mining in XML Web, the theory and methods of data mining to Web theory research has certain reference value. 　　Key words: XML; WEB data mining; semi-structured 　　数据挖掘(Data Mining) 是一项新兴技术，在诸多行业取得了成功应用，其目的是在大量的、有噪声干扰的、比较模糊的随机数据中提取到潜在的、新颖的、事先未发掘的有用信息的非平凡过程。起初，数据挖掘是研究从数据库中发现知识，但在Internet 技术迅猛发展的今天，Web 页面为人们提供了海量的数据信息，这样基于Web 的数据挖掘随之产生，并迅速成为数据挖掘的热点。如何从海量的Web 信息中快速和准确地获取有用信息已经成为当今数据挖掘领域研究的课题，Web 上的数据与其他的数据相比较存在着明显的特点，这些特点使得Web 挖掘在方法和技术方面与传统的数据挖掘有着明显的不同。　　Web 数据挖掘(Web Mining)是由Oren Etzioni 于1996 年提出的，它是Internet 应用和数据挖掘技术相互结合的产物，是从文档结构和使用的集合中发现隐含的模式。如果我们将集合看作输入，隐藏模式看作输出，那么Web 挖掘的过程就是从输入到输出的一个映射过程。　　1 Web 数据挖掘的过程　　Web 数据挖掘过程是从数据库中发现知识的过程，但是与传统的数据和数据仓库相比，Web 上的信息是半结构化的、动态的、并且是容易造成混淆的，所以很难直接以Web 网页上的数据进行数据挖掘，而需要经过必要的数据处理。一个典型Web 挖掘的处理流程包括如下四个主要过程：　　1）资源的检索：根据挖掘数据的目的，从Web 资源中抽取相关数据，构成源数据集，Web 数据挖掘主要从这些数据中提取数据。其目的是从目标Web 数据（例如网站的日志文件、数据库中的信息等）中得到信息。　　2）预处理数据：在进行Web 挖掘之前对杂乱无章的数据进行过滤，例如消除数据的不一致性；将多个数据源中的数据格式统一为一个数据存储等。预处理数据的效果直接影响到挖掘算法产生的规则和模式。数据预处理主要包括数据净化、数据选择、站点识别、会话识别和用户识别等。　　3）模式的发现：用挖掘算法找出有用的及最终可以理解的信息和知识。常用的模式发现技术包括：时序模式发现、关联规则挖掘、路径分析、聚类和分类等。　　4）分析模式：利用适当的技术与方法对挖掘出来的模式进行分析、解释、处理，把发现的规则模式转变成知识。　　Web数据挖掘的基本过程如图1所示。　　2 XML 在Web 数据挖掘中的应用