商务智能与数据挖掘第8章Web挖掘技术.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8章 Web挖掘技术 【教学目标与要求】 了解WEB数据挖掘的发展现状、分类及其流程 掌握WEB使用挖掘的过程和方法 理解WEB结构挖掘的数据源处理和算法 了解WEB内容挖掘的流程 8.1 Web数据挖掘流程 8.2 Web数据挖掘分类 8.3 WUM挖掘过程 8.4 WEB结构挖掘 8.5 WEB内容挖掘 目录 1.背景材料 2.案例分析 WEB挖掘继承了传统数据挖掘的过程,即数据收集、数据预处理、模式发现、模式分析及应用,但是WEB挖掘的各个过程与传统的数据挖掘又不全相同;Web挖掘是一项涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域的综合技术 【导入案例】 Web站点上的数据有其自身的特点,主要的可以归纳为以下几点: 数据量巨大,动态性极强,并且增长速度惊人; 异构数据库环境,Web页面的结构比一般文本文件复杂很多,它可以支持多种媒体的表达; 半结构化的数据结构。 8.1 Web数据挖掘流程 8.2 Web数据挖掘分类 Web站点上的数据有其自身的特点,主要的可以归纳为以下几点: 数据量巨大,动态性极强,并且增长速度惊人; 异构数据库环境,Web页面的结构比一般文本文件复杂很多,它可以支持多种媒体的表达; 半结构化的数据结构。 8.2 Web数据挖掘分类 8.2.1 Web内容挖掘概述 1.从资源查找(Information Retrival)的观点挖掘非结构化文档 2.从数据库(Database)的观点挖掘非结构化文档 8.2.2 Web结构挖掘概述 8.2.3 Web访问挖掘概述 8.2 Web数据挖掘分类 8.3 WUM挖掘过程 8.3.1 WUM数据预处理 预处理主要对用户访问日志进行数据清洗(Data Cleaning)、用户唯一性识别(User Identification)、用户会话识别(Identify User Session)、路径补充(Path Completion)和事务识别(transaction identification)等处理。 一、 源数据收集 二、 使用数据预处理 三、 内容预处理 四、 结构预处理 8.3 WUM挖掘过程 8.3.2 WUM模式发现 模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。可用于WUM的技术有统计分析、路径分析、关联规则、序列模式、分类、聚类以及依赖性建模等 。 8.3.3 WUM模式分析 挖掘出来的用户行为模式(集合),需要合适的工具和技术对其进行分析、解释和可视化,从中筛选出有趣(有用)的模式,使之成为人们可以理解的知识,否则挖掘出来的模式将得不到很好的应用。对于大量挖掘出来的模式,也需要一种技术使用户可以方便地查询其想要的模式,从而使解释和分析更具有针对性。 8.3 WUM挖掘过程 8.4.1 WEB结构挖掘概述 1. 超链和页面内容的关系 2. 不同挖掘阶段的分析 8.4.2 网络结构挖掘的两种算法及改进 一、 Page Rank算法 二、 HITS算法 三、两种算法的比较 四、 Page Rank算法的改进 8.4.3 Web结构挖掘应用 8.4 WEB结构挖掘 web内容挖掘是对网页内容进行挖掘,包括文本、图像、语音、视频等多媒体信息,其中最多的是对文本信息的挖掘,所用到的数据挖掘技术主要是对文本的分类和聚类 1.特征提取和特征表示 2.自动摘要 3.文本分类 4.文本聚类 8.5 WEB内容挖掘

文档评论(0)

autohhh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档