使用ＸＭＬ基于Ｗｅｂ的数据挖掘及其应用.docVIP

下载本文档

1
0
约6.21千字
约 10页
2018-04-07 发布于北京
举报
版权申诉

使用ＸＭＬ基于Ｗｅｂ的数据挖掘及其应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

使用ＸＭＬ基于Ｗｅｂ的数据挖掘及其应用　　摘要：介绍了Web数据挖掘的含义，重点讨论了Web数据挖掘的类型以各种类型的Web数据挖掘的基本过程以及它们所使用的一些相关技术，最后指出网络信息挖掘的应用前景。　　关键词：Web数据挖掘；XML；JAVA 　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2008)09-11573-03 　　　　The Application of Data Mining Based on Web Using XML 　　RUAN Zhong, YANG Yun-feng 　　(Department of Computer and Information Science，Hechi University, Yizhou 546300, China) 　　Abstract: Introduce data mining based on WEB, mainly discuss the category of Web data mining and all kinds of WEB data mining basic procedure and some technique use on it. Finally point out the prospect of WEB data mining. 　　Key words: Web data mining; XML; JAVA 　　　　1 引言　　　　随着网络信息资源的飞速增长，万维网已经成为一个巨大的，全球分布的信息服务中心，它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务，Web还包含了丰富和动态的超链接信息，这些都为数据挖掘提供了丰富的资源。数据挖掘就是从大量的数据中发现隐含的规律性的内容，解决数据的应用质量问题。充分利用有用的数据，废弃虚伪无用的数据，是数据挖掘技术的最重要的应用。相对于Web的数据而言，传统的数据库中的数据结构性很强，即其中的数据为完全结构化的数据，而Web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。显然，面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。　　　　2 网络挖掘的过程及其分类　　　　对于检索信息过程有很多方法可以使用。一般情形下，我们以互联网上的电子文档、HTML文档和数据库为信息源。信息的选择和预处理是一个转换的过程，它们可以被认为是从信息资源中检索有用的数据。网络挖掘是从网络数据中发现潜在的有种自动地从现在数据中抽取半结构化模型的技术。面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。用信息的过程，是数据库知识发现（KDD）的延伸。　　事实上，数据挖掘、机器学习和高级数据分析之间有着紧密的联系。网络信息的检索是信息发现过程中的快速网络内容挖掘。实际上，信息检索是自动检索所有相关的信息，同时尽可能少的检索无关的信息。近些年来，信息检索的研究涉及到模型、文件分类、使用者界面、数据可视化、数据过滤等领域。信息提取过程侧重的是有关文件的价值和结构，并且将从信息资源中得到的文件内容转换为信息。然而，如果信息检索的重点是信息提取，或在一个全面的文件信息检索系统可以提供一些信息提取时，则信息检索和信息提取的区别就变得混淆起来。另外，还有其他系统使用数据挖掘技术或机器学习技术去自动或半自动地获取网络文件的规则和模式。经典的信息提取经常依赖于语言上的预处理，比如语法分析、语义分析、语篇分析等。　　由此可以把网络挖掘分为两类：网络内容挖掘和网络使用挖掘（见表1）。网络内容挖掘是指从“网络内容”即数据或文件中发现有用的信息。互联网上拥有不同类型的数据资源，如FTP和新闻组网络系统（Usenet），其中大多数的这类数据都可以从网络上得到。　　　　　　3 使用XML实现基于Web的数据挖掘方法　　　　数据挖掘技术的关键是把现有的Web页面转换成XML或转换成XHTML，并使用众多工具中的一小部分来处理XML结构的数据，以检索出适当的数据。Tidy（可以从一些编程语言中获取的库）是一个免费使用的产品，可用于改正HTML文档中的常见错误并生成格式编排良好的等价文档。还可以使用Tidy来生成XHTM（XML的子集）格式的文档。Web页面只有在创建了一个可合并到现有数据集的数据集后才会被检索和处理。　　3.1 数据抽取方法　　以下列出这些步骤是为了提供该过程的简要说明：(1)标识数据源并把它映射成XHTML；(2)查找数据内的引用点；(3)将数据映射成XML；(4)合并结果并处理数据。　　3.2 获取源信息　　在