基于XMLWeb数据挖掘应用研究.docVIP

下载本文档

3
0
约3.8千字
约 9页
2018-08-28 发布于福建
举报
版权申诉

基于XMLWeb数据挖掘应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于XMLWeb数据挖掘应用研究

基于XMLWeb数据挖掘应用研究　　摘要：讨论了基于XML语言的Web数据挖掘技术，解决了Internet上绝大多数非结构化甚至是无结构的、Web信息的组织结构性差而导致的Web数据挖掘困难的问题。　　关键词：数据挖掘；Web数据挖掘；XML技术　　中图分类号：TP311文献标识码：A 文章编号：1009-3044(2008)14-20792-02 　　　　1 引言　　　　基于Web技术的万维网是一个巨大的、分布广泛的、全球性的信息服务中心，涉及新闻、广告、消费者信息、金融管理、教育、政府、电子商务和许多其他信息服务。在这些异质的Web信息资源中，蕴含着具有巨大潜在价值的知识，但同时也面临着如何从大量Web信息中得到相关和有用的信息问题。而面向Web的数据挖掘技术就为因特网上的信息利用提供了一个很好的解决途径，并且已经取得了一些令人满意的结果。但由于Web数据存在方式的特殊性使Web数据控制变得十分复杂，而XML的出现为Web数据挖掘技术带来了新的契机和巨大的发展。　　　　2 Web数据挖掘概述　　　　互联网是世界上最丰富和最密集的信息来源。但是，它的结构给人们对它的利用带来了难度。因此，如何从浩瀚的网络信息中挖掘出人们所需要、真正有价值的信息是Web挖掘的主要任务。而Web信息同普通文本存在显著的区别，即Web信息是半结构化的文本，其中的标签（Tag）给Web挖掘带来了不少方便之处。在加了标签后，Web提供了许多附加信息，如可能提供了本页面内容的一个总结，里的charset则可以提供文本的文种信息，等等。将这些额外的信息利用到普通的文本挖掘中，将会增加数据挖掘的精度，增加数据挖掘的知识量。这就是Web挖掘。简单来讲，Web挖掘[1]就是透过数据挖掘技术来分析与网站相关的资料，如网站浏览记录、网页内容、网页链接结构等。其中，网站浏览记录记载了网站使用者每次存取网站的一些信息，能反应网站使用者对网站的浏览要求。　　2.1 半结构化的数据结构　　Web上的数据与传统的数据库中的数据不同，传统的数据库都有一定的数据模型，可以根据模型来具体描述特定的数据。而Web上的数据非常复杂，没有特定的模型描述，每一站点的数据都各自独立设计，并且数据本身具有自述性和动态可变性。因而，Web上的数据是一种非完全结构化的数据，这也称之为半结构化数据。半结构化是Web上数据的最大特点。　　2.2 解决半结构化的数据源问题　　Web上的每一个站点都是异构的数据源，因而每一站点之间的信息和组织都不一样，这就构成了一个巨大的异构数据库环境。如果想要利用这些数据进行数据挖掘，首先，必须将这些站点的数据都集成起来，提供给用户一个统一的视图，才有可能从巨大的数据资源中获取所需的东西。其次，还要解决Web上的数据查询问题，因为如果数据不能很有效地得到，对这些数据进行分析、集成、处理就无从谈起。　　解决Web上的异构数据的集成与查询问题，就必须要有一个模型来清晰地描述Web上的数据。Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。针对Web上的数据半结构化的特点，寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外，还需要一种半结构化模型抽取技术，即自动地从现有数据中抽取半结构化模型的技术。也就是说面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。　　　　3 XML与Web数据挖掘技术　　　　3.1 XML简介　　XML可扩展标记语言，为W3C所制定的一种标记语言国际标准。HTML着重在网页内容的显示，而XML的制定，则以网页内容的建立与管理为主要目标。在XML中，可以自行定义资料的形态，可以建立结构化的数据库，还可以透过筛选条件，进行资料排序与查询。此外，XML还具有延伸性，使用者可以依据不同的需求，自行设定标记的格式，并具有对文件自我解释的能力。由于对XML特性的了解，相对于HTML，通过XML可以发掘出更多、更有意义的Web信息。　　3.2 基于XML的Web数据挖掘模型　　面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。由于XML具有很强大的数据描述和数据抽取功能，利用 XML技术可以实现对Web页半结构的数据进行描述, 形成一个半结构的数据模型, 通过这个模型可以很好的实现数据挖掘。借助它可以完成基于Web数据挖掘中最重要的步骤数据抽取与转换。其主要的思想是: 把现有的Web页面转换成XML或 XHTML，并使用众多工具中的一小部分来处理XML结构的数据, 以检索出适当的数据。　　如何从Web网页上析取结构化数据，为了达到此目的，通过融合网络爬行器技术和基于X