基于xmlweb数据挖掘技术研究与实现.docVIP

下载本文档

3
0
约3.02千字
约 7页
2018-08-28 发布于福建
举报
版权申诉

基于xmlweb数据挖掘技术研究与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于xmlweb数据挖掘技术研究与实现

基于xmlweb数据挖掘技术研究与实现　　[摘要]随着信息技术的迅猛发展，计算机在各行业都得到广泛应用，如何对计算机中的数据进行利用，挖掘知识，提炼资源，最终创造效益，是决策支持系统的重要工作。在进行决策支持过程中运用最多的数据分析工具就是数据挖掘技术，解决Web页面信息不适合进行数据挖掘的问题已成为数据挖掘技术当务之急。　　[关键词]数据挖掘，XML，异构数据库，SGML 　　中图分类号：TP393.092 文献标识码：A 文章编号：1009-914X（2015）45-0143-01 　　1 Web数据挖掘概述　　数据挖掘就是一种透过数理模式来分析企业内储存的大量资料，以找出不同的客户或市场划分，分析出消费者喜好和行为的方法。如果将Web视为CRM的一个新的Channel，则Web Mining便可单纯看做Data Mining应用在网络数据的泛称。Web数据挖掘建立在对大量的网络数据进行分析的基础上，采用相应的数据挖掘算法，在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析，最后做出归纳性的推理、预测客户的个性化行为以及用户习惯，从而帮助进行决策和管理，减少决策的风险。Web的巨大、分布广泛和内容多样使得目前的Web挖掘面临着众多问题和挑战。首先，对有效的数据仓库和数据挖掘来说，Web上的数据过于庞大。而且，Web上的数据具有极强的动态性，不仅数量增长快而且更新十分迅速。但是面对如此大量的Web上的信息，有调查却表明：99%的Web信息对于99%的用户是无用的。这样看来，面对网络上形形色色各式各样的用户群体，许多由Web搜索引擎所检索的资料会被淹没。另外，由于Web页面缺乏同一的结构，其结构又比任何传统文本文档都要复杂，所以要实现基于Web的数据挖掘和信息检索在目前来说是非常具有挑战性，它所面临的问题有如下几个方面：　　（一）异构数据库环境　　Web上的每一个站点就是一个数据源，每个数据源都是异构的，因而每一站点之间的信息和组织都不一样，这就构成一个巨大的异构数据库环境。如果想要利用这些数据进行数据挖掘，首先，必须研究异构数据的集成问题。其次，要解决Web上的数据查询问题，因为如果所需数据不能有效得到，对这些数据进行分析、集成、处理就无从谈起。　　（二）半结构化的数据结构　　Web数据非常复杂，没有特定模型描述，每一站点的数据都各自独立设计，并且数据本身具有自述性和动态可变性，因而半结构化是Web上数据的最大特点。　　（三）解决半结构化的数据源问题　　解决Web上的异构数据的集成与查询问题，就必须用一个模型来清晰地描述Web上的数据，针对Web数据特点，寻找一个半结构化数据模型是解决问题的关键所在，除了要定义一个半结构化数据模型外，还需要一种半结构化模型抽取技术，即自动从现有数据中抽取半结构化模型的技术，面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。　　目前Web页面常用的HTML语言在解决上述问题方面显得无能为力，这是因为HTML只描述了信息的显示方式而未对信息内容本身进行描述，其本质上只是一种格式显示语言，无法区分页面的数据和样式扩展。另外，HTML 语言不能描述矢量图形、数学公式、化学符号等特殊对象，在数据显示方面的描述能力也不尽如人意。而标记语言XML针对Internet设计，为解决目前Web数据挖掘方面的问题提供了可能。　　2 Web数据挖掘解决方法　　XML是Extensible Markup Language（扩展标注语言）的简称，它与HTML一样，都是SGML（标准通用标记语言）的一部分，是SGML在特殊形式下的特殊表现但XML将SGML的丰富功能与HTML易用性结合到Web应用中，以一种开放的自我描述方式定义了数据结构，在描述数据内容的同时能突出对结构的描述，从而体现出数据之间的关系，便于计算机从Web文件中提取数据。与HTML相比主要具有以下几个方面的特点：　　（一）创建标记和文法结构　　该方法使用户可以根据自己特殊需要制定出适用于自身的一套标记和文法结构，便于结构化地描述自己领域的信息，从而提供一种处理数据的最佳方式。因为无论在数据表示和存储方面，还是在数据的传输和处理方面，XML都是强项。这使得XML必将在电子商务、政府文档、司法、出版、CAD/ CAM、保险机构、厂商和中介组织信息交换等领域中一展身手，针对不同的系统、厂商提供各具特色的独立解决方案。　　（二）实现不同数据源之间数据交换　　XML文件为纯文本文件，不受操作系统、软件平台的限制，具有跨平台的特性，这一特性为不同的数据源之间进行数据交换提供了公共标准，是一种公共的交互平台。一种数据源只要将它的数