基于Web页数据挖掘.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Web页数据挖掘

基于Web页数据挖掘   摘要:因特网自上世纪九十年代出现以来,得以迅速发展,因特网已经成为一个分布式、全球性的信息服务中心,已经悄然进入了人们的日常生活,而且其信息量还在不断的快速扩充。根据一项调查,WEB拥有的部分信息空间已经超过了数十亿页面,更为恐怖的是这个数字还在以大约每五个月翻一番的速度增长。对WEB数据的挖掘具有重大的现实意义,也是目前各学者研究的重点。本文主要简单介绍WEB数据挖掘的定义和WEB数据挖掘的内容,最后概括阐述了其应用。   关键词:WEB数据挖掘;内容;应用   中图分类号:TP393 文献标识码:A 文章编号:1007-9599 (2012) 18-0000-02   1 WEB数据挖掘的定义   到目前为止,对于WEB数据挖掘的确切定义还没有明确的说法。WEB数据挖掘其实就是数据挖掘的一种,其对象是WEB而已,可以从数据挖掘的定义中探索WEB数据挖掘(Web Mining)的定义:从WWW(World Wide Web)相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,即为用户提取和挖掘WEB页面的信息,从而最终应用于商业运作以满足管理者的需要。WEB数据挖掘的定义非常简单,但是实际中提取信息是非常难的,首先,因特网是一个开放性、动态性以及异构性的全球分布式网络,资源的分布非常分散,而且动态变化莫测,也没有统一的管理组织,想要获取定向的信息是一件非常难得的事情。   其次,WEB数据最大的特点就是半结构化。简单说就是,WEB数据实际是有一定的结构的,但是它的结构受到了自述层次的影响,它并不是非常完整的结构。而传统的数据库,其数据的结构性非常强,因此可以建立一定的数据模型,在数据处理的时候就可以根据一定的描述寻找特定的数据。WEB数据非常的复杂,由于其是半结构化的数据,因此不具备可描述性,它的数据在每一个站点都是相互独立的,具有自述性和动态可变性。WEB数据的挖掘相对传统的数据库模式要困难得多,WEB信息量的增加一直诱惑着人们不断的探究更好的数据挖掘方式。   2 WEB数据挖掘的内容   WEB上含有丰富的信息,而且其信息的增长速度也非常快。首先是页面本身包含的信息,这是WEB页面信息的基础。其次,用户使用WEB信息时会留下一些浏览记录,这些记录也是非常宝贵的资源,它体现了客户的需求和习惯。最后,客户使用还会留下一些超链接,这也是一部分资源。因此,根据不同的挖掘对象,WEB数据挖掘内容一般包括三部分:WEB内容挖掘(Web Content Mining)、WEB结构挖掘(Web Structure Mining)和WEB使用挖掘(Web Usage Mining)。   2.1 WEB内容挖掘。内容挖掘也就是对WEB页面信息的提取,从页面的文档内容以及其描述中提取信息的过程。这是一种基于索引的信息挖掘,类似的代理技术都是一类。挖掘的信息主要是文本信息,近些年随着多媒体技术的应用越来越广泛,多媒体信息也是内容挖掘的对象。文本挖掘的主要目的是对页面信息进行分类、摘要以及关联分析,最主要的功能就是分类和聚类。多媒体信息挖掘则是利用多媒体提取工具进行特征提取,抽列出图形、语音、视频等的文件名、类型、URL、父URL、关键字、颜色向量等,形成特征二维表,然后采用传统的数据挖掘方法进行挖掘。大多是关联规则或者分类。   一般情况下,对于WEB内容的挖掘可以采取两种主要的策略:一是对于有锁定网络的查询语言,采取直接挖掘文件内容的策略;二是在其他工具搜索的基础上加以改进,主要是对查询结果进一步处理,从而得到更有价值、更准确的信息。   2.2 WEB的使用挖掘。WEB使用挖掘又被称为日志挖掘,其他两种数据挖掘的对象是网上的原始数据对象,而此类挖掘的对象是用户访问WEB服务器以后留下的信息,主要是网络服务器访问记录、用户注册信息等。通过对访问记录的数据挖掘,可以发现用户感兴趣的内容以及喜欢的访问方式。其实现的主要方式是对站点的日志文件和相关数据进行分析,所以又被称为日志挖掘。WEB使用挖掘的信息有助于帮助分析客户的喜好,了解用户的网络行为数据所具有的意义,从而改进服务系统。   WEB使用挖掘主要在两个方面比较吸引人,也是比较具有市场开发价值的:一般访问模式追踪和个性化的使用记录。WEB使用记录的挖掘方法也主要有两种:基于WEB事物的方法和基于数据立方体的方法,对Web日志文件的研究,主要能完成简单的统计分析和智能分析两大任务。   2.3 WEB结构挖掘。WEB结构的挖掘是从WWW的整体结构和连接关系中发现知识,是对页面进行排序,重建WEB站点结构的过程,对于网络资源的检索结果具有重要的意义。   这一类型挖掘的目标是寻找页面的结构,寻找页面的更过组织信息,以此对页面进行分类和

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档