商务智能与数据挖掘第8章Web挖掘技术.ppt

下载文档 降价啦

9
0
约1.49千字
约 10页
2018-09-07 发布于浙江
举报
版权申诉
保障服务

商务智能与数据挖掘第8章Web挖掘技术.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第8章 Web挖掘技术【教学目标与要求】了解WEB数据挖掘的发展现状、分类及其流程掌握WEB使用挖掘的过程和方法理解WEB结构挖掘的数据源处理和算法了解WEB内容挖掘的流程 8.1 Web数据挖掘流程 8.2 Web数据挖掘分类 8.3 WUM挖掘过程 8.4 WEB结构挖掘 8.5 WEB内容挖掘目录 1.背景材料 2.案例分析 WEB挖掘继承了传统数据挖掘的过程，即数据收集、数据预处理、模式发现、模式分析及应用，但是WEB挖掘的各个过程与传统的数据挖掘又不全相同；Web挖掘是一项涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域的综合技术【导入案例】 Web站点上的数据有其自身的特点，主要的可以归纳为以下几点：数据量巨大，动态性极强，并且增长速度惊人；异构数据库环境，Web页面的结构比一般文本文件复杂很多，它可以支持多种媒体的表达；半结构化的数据结构。 8.1 Web数据挖掘流程 8.2 Web数据挖掘分类 Web站点上的数据有其自身的特点，主要的可以归纳为以下几点：数据量巨大，动态性极强，并且增长速度惊人；异构数据库环境，Web页面的结构比一般文本文件复杂很多，它可以支持多种媒体的表达；半结构化的数据结构。 8.2 Web数据挖掘分类 8.2.1 Web内容挖掘概述 1．从资源查找（Information Retrival）的观点挖掘非结构化文档 2．从数据库（Database）的观点挖掘非结构化文档 8.2.2 Web结构挖掘概述 8.2.3 Web访问挖掘概述 8.2 Web数据挖掘分类 8.3 WUM挖掘过程 8.3.1 WUM数据预处理预处理主要对用户访问日志进行数据清洗（Data Cleaning）、用户唯一性识别（User Identification）、用户会话识别（Identify User Session）、路径补充（Path Completion）和事务识别（transaction identification）等处理。一、源数据收集二、使用数据预处理三、内容预处理四、结构预处理 8.3 WUM挖掘过程 8.3.2 WUM模式发现模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。可用于WUM的技术有统计分析、路径分析、关联规则、序列模式、分类、聚类以及依赖性建模等。 8.3.3 WUM模式分析挖掘出来的用户行为模式（集合），需要合适的工具和技术对其进行分析、解释和可视化，从中筛选出有趣（有用）的模式，使之成为人们可以理解的知识，否则挖掘出来的模式将得不到很好的应用。对于大量挖掘出来的模式，也需要一种技术使用户可以方便地查询其想要的模式，从而使解释和分析更具有针对性。 8.3 WUM挖掘过程 8.4.1 WEB结构挖掘概述 1．超链和页面内容的关系 2．不同挖掘阶段的分析 8.4.2 网络结构挖掘的两种算法及改进一、 Page Rank算法二、 HITS算法三、两种算法的比较四、 Page Rank算法的改进 8.4.3 Web结构挖掘应用 8.4 WEB结构挖掘 web内容挖掘是对网页内容进行挖掘，包括文本、图像、语音、视频等多媒体信息，其中最多的是对文本信息的挖掘，所用到的数据挖掘技术主要是对文本的分类和聚类 1．特征提取和特征表示 2．自动摘要 3．文本分类 4．文本聚类 8.5 WEB内容挖掘