基于Web页数据挖掘.docVIP

下载本文档

0
0
约3.18千字
约 7页
2018-08-28 发布于福建
举报
版权申诉

基于Web页数据挖掘.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Web页数据挖掘

基于Web页数据挖掘　　摘要：因特网自上世纪九十年代出现以来，得以迅速发展，因特网已经成为一个分布式、全球性的信息服务中心，已经悄然进入了人们的日常生活，而且其信息量还在不断的快速扩充。根据一项调查，WEB拥有的部分信息空间已经超过了数十亿页面，更为恐怖的是这个数字还在以大约每五个月翻一番的速度增长。对WEB数据的挖掘具有重大的现实意义，也是目前各学者研究的重点。本文主要简单介绍WEB数据挖掘的定义和WEB数据挖掘的内容，最后概括阐述了其应用。　　关键词：WEB数据挖掘；内容；应用　　中图分类号：TP393 文献标识码：A 文章编号：1007-9599　（2012）　18-0000-02 　　1 WEB数据挖掘的定义　　到目前为止，对于WEB数据挖掘的确切定义还没有明确的说法。WEB数据挖掘其实就是数据挖掘的一种，其对象是WEB而已，可以从数据挖掘的定义中探索WEB数据挖掘（Web　Mining）的定义：从WWW（World　Wide　Web）相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息，即为用户提取和挖掘WEB页面的信息，从而最终应用于商业运作以满足管理者的需要。WEB数据挖掘的定义非常简单，但是实际中提取信息是非常难的，首先，因特网是一个开放性、动态性以及异构性的全球分布式网络，资源的分布非常分散，而且动态变化莫测，也没有统一的管理组织，想要获取定向的信息是一件非常难得的事情。　　其次，WEB数据最大的特点就是半结构化。简单说就是，WEB数据实际是有一定的结构的，但是它的结构受到了自述层次的影响，它并不是非常完整的结构。而传统的数据库，其数据的结构性非常强，因此可以建立一定的数据模型，在数据处理的时候就可以根据一定的描述寻找特定的数据。WEB数据非常的复杂，由于其是半结构化的数据，因此不具备可描述性，它的数据在每一个站点都是相互独立的，具有自述性和动态可变性。WEB数据的挖掘相对传统的数据库模式要困难得多，WEB信息量的增加一直诱惑着人们不断的探究更好的数据挖掘方式。　　2 WEB数据挖掘的内容　　WEB上含有丰富的信息，而且其信息的增长速度也非常快。首先是页面本身包含的信息，这是WEB页面信息的基础。其次，用户使用WEB信息时会留下一些浏览记录，这些记录也是非常宝贵的资源，它体现了客户的需求和习惯。最后，客户使用还会留下一些超链接，这也是一部分资源。因此，根据不同的挖掘对象，WEB数据挖掘内容一般包括三部分：WEB内容挖掘（Web　Content　Mining）、WEB结构挖掘（Web　Structure　Mining）和WEB使用挖掘（Web　Usage　Mining）。　　2.1 WEB内容挖掘。内容挖掘也就是对WEB页面信息的提取，从页面的文档内容以及其描述中提取信息的过程。这是一种基于索引的信息挖掘，类似的代理技术都是一类。挖掘的信息主要是文本信息，近些年随着多媒体技术的应用越来越广泛，多媒体信息也是内容挖掘的对象。文本挖掘的主要目的是对页面信息进行分类、摘要以及关联分析，最主要的功能就是分类和聚类。多媒体信息挖掘则是利用多媒体提取工具进行特征提取，抽列出图形、语音、视频等的文件名、类型、URL、父URL、关键字、颜色向量等，形成特征二维表，然后采用传统的数据挖掘方法进行挖掘。大多是关联规则或者分类。　　一般情况下，对于WEB内容的挖掘可以采取两种主要的策略：一是对于有锁定网络的查询语言，采取直接挖掘文件内容的策略；二是在其他工具搜索的基础上加以改进，主要是对查询结果进一步处理，从而得到更有价值、更准确的信息。　　2.2 WEB的使用挖掘。WEB使用挖掘又被称为日志挖掘，其他两种数据挖掘的对象是网上的原始数据对象，而此类挖掘的对象是用户访问WEB服务器以后留下的信息，主要是网络服务器访问记录、用户注册信息等。通过对访问记录的数据挖掘，可以发现用户感兴趣的内容以及喜欢的访问方式。其实现的主要方式是对站点的日志文件和相关数据进行分析，所以又被称为日志挖掘。WEB使用挖掘的信息有助于帮助分析客户的喜好，了解用户的网络行为数据所具有的意义，从而改进服务系统。　　WEB使用挖掘主要在两个方面比较吸引人，也是比较具有市场开发价值的：一般访问模式追踪和个性化的使用记录。WEB使用记录的挖掘方法也主要有两种：基于WEB事物的方法和基于数据立方体的方法，对Web日志文件的研究，主要能完成简单的统计分析和智能分析两大任务。　　2.3 WEB结构挖掘。WEB结构的挖掘是从WWW的整体结构和连接关系中发现知识，是对页面进行排序，重建WEB站点结构的过程，对于网络资源的检索结果具有重要的意义。　　这一类型挖掘的目标是寻找页面的结构，寻找页面的更过组织信息，以此对页面进行分类和