- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于XML的Web数据挖掘及应用模式研究
摘要:本文分析了Web网页的数据挖掘最新技术及发展方向,介绍
了基于XML的Web数据挖掘的特点,提出了基于XML的数据抽取技
术,最终得到所需的数据并通过一个通用的应用模式进行挖掘的全过
程。
关键词:数据挖掘Web挖掘XML
Web技术的飞速发展,在促使人们信息交流的方式变的更加方便
快捷的同时,也积累了大量的数据,如何发现并利用隐藏在这些数据背
后的知识就成为当前信息技术领域研究的热点问题之一。Web数据挖
掘就是能够满足这一要求的一种技术,即从Web上的海量数据中提取
对人们有用信息并为人们所利用。然而Web上的数据不同于传统数
据库中的结构化数据,Web上的数据大多是一种无结构或半结构化的
数据。如何有效的对Web数据进行清理和集成是Web数据挖掘领域
中一个很重要的研究课题。
目前Web挖掘的应用存在着两个重要的困难。首先,现有的应用
模式大多缺乏通用性。往往只能根据现实的情况设计、定制针对性的
解决方案,而难以由用户自己运用成形的软件模块,设定数据参数以解
决问题。其次,数据的预处理和后处理工作一直是困扰挖掘应用的一
个难题。数据结构的复杂性以及异质系统之间的数据耦合问题得不到
妥善的解决,使得挖掘应用难以顺利展开。上述问题的主要原因在于
现有的应用模式未能有效地对挖掘算法进行有效地封装,因而便无法
有效地实现通用的数据表达和接口规范。本文将详细讨论在Web环
境下,如何对无结构或半结构化的Web数据进行数据集成的问题,并提
出了一种基于XML的挖掘应用模式。该模式充分利用了XML在数
据描述能力、异质系统数据交换能力以及可扩展性方面的优势,为解
决上述问题提供一个框架。
1基于XML技术进行数据挖掘
XML是一种中介标示语言(meta-markuplanguage),提供资料的结
构和语义信息,使计算机和服务器能及时处理多种形式的信息。运用
XML的扩展功能不仅能从Web服务器下载大量的信息,还能大大减少
网络业务量。它以一种开放的自我描述方式定义了数据结构,在描述
数据内容的同时能突出对结构的描述,从而体现出数据之间的关系。
这样所组织的数据对于应用程序和用户都是友好的、可操作的。
XML可以以简单开放的方式描述结构化数据,而且数据显示与内
容分开,是数据更合理的表现出来。由此可见XML为在Web上的数
据查询和抽取提供了一个契机,这正是Web挖掘所需要的。本文介绍
的Web数据挖掘技术,采用以下方法来实现数据抽取:首先将HTML
文档转换成XML格式,利用XML格式规范的优点,再从XML文档中
更加有效地分析和处理数据。重点在于如何通过基于XML的数据抽
取技术从Web网页上抽取结构化数据。
根据以上思路,将基于XML技术的Web数据挖掘分为以下几个
步骤,如图1所示:
从互联网上确定目标Web网页,获得HTML文档;将HTML文档
转换成XHTML或XML格式;对XHTML或XML格式的文档进行数
据抽取;对抽取的数据合并为XML数据文件;将提取出的XML数据写
入关系数据库,以备应用程序挖掘调用。
1.1获得目标网页的Web文档
确定目标信息源即Web挖掘所要挖掘的Web站点。目前网络上
已经有很多高效、可靠的网络爬行工具可用,因此可利用这些工具方
便的获取Web页面的HTML文档。
1.2将Web文档转换成XML格式
确定了信息源后,我们在抽取过程中的第一步就是将数据从
HTML转换成XML。本过程将通过一个构造名为XMLHelper的Java
类来完成,
您可能关注的文档
- 基于模糊控制的机械手柔性建模及其应用研究 .pdf
- 基于模糊控制的机器人姿态控制算法研究 .pdf
- 基于模糊控制一阶倒立摆控制与仿真 .pdf
- 基于模糊PID算法的自动控制研究 .pdf
- 基于校园生活再适应视角的退伍复学大学生的压力研究及辅导初探.pdf
- 基于机器视觉的无人机自主飞行技术研究 .pdf
- 基于机器学习的气象数据分析技术研究 .pdf
- 基于智能算法的天气预测研究与应用 .pdf
- 基于时空大数据的交通灾害评价预警及服务关键技术 .pdf
- 基于无线传感器网络的监测系统研究的开题报告 .pdf
- 河南省商开二市2023-2024学年高三第二次诊断性检测数学试卷含解析.doc
- 黑龙江省肇东一中2024年高三最后一模数学试题含解析.doc
- 五年级实验比赛复习试题及答案(一).doc
- 山东省临沂市兰山区临沂一中2023-2024学年高考数学五模试卷含解析.doc
- 安徽省安庆一中、山西省太原五中等五省六校重点中学2024届高考适应性考试数学试卷含解析.doc
- 五年级实验比赛复习测试卷.doc
- 贵州省贵阳市示范名校2023-2024学年高考仿真卷数学试卷含解析.doc
- 五年级实验比赛复习试题及答案(二).doc
- 河北省邯郸市重点中学2023-2024学年高考临考冲刺数学试卷含解析.doc
- 黑龙江省牡丹江市爱民区牡丹江一中2023-2024学年高考数学考前最后一卷预测卷含解析.doc
文档评论(0)