第13章 Web数据挖掘.pptVIP

  1. 1、本文档共63页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第13章 Web数据挖掘

采用数据包监听技术可以直接从TCP/IP包中抽取有用数据并可用于监控流入服务器的数据流量。服务器还可把其他类型的使用信息,比如Cookie和查询数据,存入单独的日志中。 Cookie是服务器为了自动追踪访问者,为单个用户浏览器生成的标志。 查询数据则是在线用户在查找所需信息时生成的。 服务器端除了使用数据,还能提供内容数据、结构信息及网页元信息(如文件大小、最近修改时间等)。 客户端数据采集 需要用到远程Agent(如Java脚本或Java Applet)或者需要修改已有浏览器(如Mosaic,IE,Netscape)的源程序代码来增强浏览器软件的数据收集能力。 客户端收集数据的方法一般需要用户的配合,比如打开Java脚本或Java Applet的允许开关,或者需要用户愿意使用修改过的浏览器软件。 代理服务器端数据收集 代理服务器(Proxy)相当于在客户浏览器和Web服务器之间提供了缓存功能的中介服务器,代理服务器的缓存功能可以减少用户下载网页的时间以及服务器和客户机之间的网络流量。 路径挖掘的数据源主要是Web服务器日志,它记录了用户访问站点的相关信息。 常见的Web服务器日志采用ECLM日志模式,其结构如下图所示。 Web使用挖掘将主要用到其中的Method /URL/ Potocal和Referer两个字段。 ECLM日志模式中,URL表示用户所请求页面的URL地址。Referer表示引用页的URL,如果用户直接写入URL进行访问或利用书签进行访问,则该栏为空。 IP Adress Time/Date Method/URL/Potocal Status Size Referer Agent ECLM日志模式 (2)预处理 经过数据采集获得的原始数据往往不完整,因此Web服务器日志中的大量信息必须经过预处理才能转换成模式发现所必需的有效数据。 预处理主要包括以下两部分内容: 数据清洗(DATA CLEANING):包括无关记录的剔除、判断是否有重要的访问未被记录、用户识别等。 事务识别(TRANSACTION IDENTIFICATION):即将页面访问序列划分为代表Web事务或用户会话的逻辑单元。 预处理具体包括使用(usage)、内容和结构信息的预处理。包含在多种数据源中的这些信息必须经过预处理先转换成模式发现所必需的数据抽象概念,才能进一步地处理。 用户会话识别 除非在客户端使用追踪机制,否则仅靠IP地址、Agent和服务器的点击流数据来识别用户的服务器会话,会产生很多问题。可以通过Cookie方法、登录或IP/Agent/路径分析来进行用户识别。然后,就把每个用户的点击流划分成会话。 内容预处理 内容预处理包括把文件、图像、脚本及多媒体等其他文件转换成可用于Web使用挖掘的数据格式。 这种处理常常包括了诸如分类、聚类这样的内容挖掘。 把数据挖掘技术用于网站内容的挖掘是一个吸引人的研究领域,在这一领域,网站的内容可用于过滤模式发现得到的输入或输出。例如,分类算法可用来限制只输出与某一主题或某类产品有关的网页视图。 结构预处理 网站结构是由网页视图之间超文本链接生成的。网站结构可以采用与网站内容相同的方法来获取和进行预处理。 动态内容(动态链接)会比静态网页视图带来更多的问题。不同的服务器会话可能会生成不同的网站结构。 〖例〗数据转换示例及身份识别码设定过程如图所示。 Data-dictionary(Transition-rule) IP Adress Time/Date Method/URL/Potocal Status Size Referer Agent 序号 URL U-id U-idi U-ide Turl Rturl 数据转换对照表 上图中的数据转换对照表给每个URL地址都设定了唯一的身份识别码U-id,它是由内码U-idi和外码U-ide两部分组成的,同一网站中各个网页的内码是一致的,而外码互不相同。 针对某个网站进行路径挖掘时可以先通过内码的一致性将其他无关网站的日志记录过滤掉;同时,因为身份识别码U-id的编制格式非常简洁,从而提高了数据挖掘的效率。预处理后的数据存放在临时日志数据库(TD)中,每次进行数据挖掘时都要首先清空该数据库中的所有数据,以便保持数据的实时性和准确性。 (3)模式发现 针对Web数据挖掘领域的特点,模式发现采用的相关技术必须做出了相应的修改和完善;此外还采用了特有的路径分析技术。 在基于Web的路径分析中最常用的是图,它能够代表定义在网站上的各页面间的联系。图最直接的来源是网站结构图,网站上的页面定义为节点,页面间的超链接定义成图上的边。Web使用挖掘就是要从图中

文档评论(0)

dajuhyy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档