基于xml的web文本挖掘及关联算法的分析-analysis of web text mining and association algorithm based on xml.docxVIP

  • 5
  • 0
  • 约4.81万字
  • 约 53页
  • 2018-05-18 发布于上海
  • 举报

基于xml的web文本挖掘及关联算法的分析-analysis of web text mining and association algorithm based on xml.docx

基于xml的web文本挖掘及关联算法的分析-analysis of web text mining and association algorithm based on xml

江苏科技大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:年月日江苏科技大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权江苏科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于:(1)保密□,在年解密后适用本授权书。(2)不保密□。学位论文作者签名:指导教师签名:年月日年月日第1章绪论1.1研究背景随着Internet的迅猛发展,它已成为各行各业的人们交流思想、获取信息的便利手段。但是网络上的这些Web信息缺乏结构化组织的规整性,随意地散布在因特网的各个角落,不能得到有效的整合利用。而今天的因特网的规模仍在急剧地扩大,其上的信息量也在爆炸般地增长,这时人们如果不去有意识地寻找弥补该缺憾的有效途径,不远的将来人们将迷途于信息的汪洋中。目前数据库技术的研究热点之一是如何将Web上的海量数据运用在比较复杂的应用中。数据挖掘是指发现隐含在大量数据中的具有规律性的内容并利用其来解决数据应用中的问题。数据挖掘技术最重要的应用是对有用的数据进行充分利用,无用的数据统统予以废除。传统数据库中的数据都是完全结构化的,而Web 上的数据与此截然不同,Web数据最大的特点就是半结构化(这种半结构化是相对于传统数据库的数据来说的)。显而易见,对Web数据的挖掘要比对单个数据仓库的数据挖掘复杂很多。扩展标记语言XML是ExtensibleMarkupLanguage的简写,是SGML(标准通用标记语言,StandardGeneralMarkupLanguage)的一个很重要的分支,它由W3C(万维网协会)设计来为Web应用服务的。XML与超文本标记语言(HTML)相类似,被设计使用一系列简单的标记来描述数据,用一些方便的方式就可以建立这些标记。XML 是一种新的标准语言,可以用来自动描述信息,它为共享数据提供了一种独立运行程序的方法,通过计算机通信能够把因特网的功能传递扩大到多种人类活动中去。目前WWW环境是直接面对Web数据的,这些Web数据以XML为基础,这种环境对原有的Web应用兼容性很好,而且使Web中的信息共享与交换也能够更好地实现。XML可以被看作为一种半结构化的数据模型,对文件的语义描述很清晰,很容易就能和关系数据库中的属性一一对应,对数据实施查询与模型抽取[1]。XML具有良好的可扩展性以及自描述性,XML文档数据的形式与内容分离,同时它还具有严格的语法和对多语种的支持等特性,这使得它能够在数据的集成,发送,处理和显示等环节中达到很好的性能。所以,XML的出现使得异构数据源的集成和查询的问题有可能得以实现。XML具有平台独立性,同时也独立于提供商和编程语言,这使得它能够在不同的系统、数据库、语言之间进行通信,目前己经成为数据表示的开放标准。XML和数据挖掘在网络与数据库方面等都发挥了重大作用,两者的相结合可以在更多领域得以应用。因此,对基于XML的数据挖掘技术进行研究很大地促进了XML技术和通用的数据挖掘技术的发展[2]。1.2课题研究现状1.2.1Web数据挖掘的研究现状互联网作为一个全球性信息交流的公共媒体,包含了各个领域的信息,由于Web 上所包含的信息量巨大,而用户只对其中极少部分的Web信息感兴趣,大量的无用信息就会对用户感兴趣的信息造成干扰,因此怎样快速、高效地从这些Web资源中找出用户感兴趣的内容成为急切需要解决的问题。将传统数据挖掘技术应用到Web领域进行Web数据挖掘为解决这些问题提供了一个有效途径,因此Web挖掘成为近年来数据挖掘领域的研究热点。Web挖掘是数据挖掘技术的一个分支,它是指利用数据挖掘技术发现万维网中潜在的、有用的知识。Web数据挖掘可以分为Web内容挖掘、结构挖掘和使用记录挖掘。随着电子商务的兴起和迅速发展,电子商务系统将成为未来Web挖掘的重要应用方向之一。使用记录挖掘与电子商务的关系最紧密,它在这个领域的重视度将会很大。结构挖掘的研究主要是对搜索引擎的研究,这方面的研究已经相对成熟。对文本的内容挖掘研究已经取得了很多成果,多媒体挖掘也已经成为了研究者关注的热点。目前,因特网广泛应用XML来表示Web上的数据,如何有效挖掘出大量XML 数据中的有用信息成为研究热点。XML是一种可扩展标记语言,它的自描述性使不同应用间的数据交换容易实现,

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档