第4章 Web挖掘技术精品.ppt

下载文档 降价啦

1
0
约2.87千字
约 10页
2018-04-24 发布于湖北
举报
版权申诉
保障服务

第4章 Web挖掘技术精品.ppt

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第4章 Web挖掘技术精品

数据仓库与数据挖掘数据仓库与数据挖掘第4章 Web挖掘技术【教学目标与要求】了解WEB数据挖掘的发展现状、分类及其流程掌握WEB使用挖掘的过程和方法理解WEB结构挖掘的数据源处理和算法了解WEB内容挖掘的流程数据仓库与数据挖掘 4.1 Web数据挖掘流程 4.2 Web数据挖掘分类 4.3 WUM挖掘过程 4.4 WEB结构挖掘 4.5 WEB内容挖掘内容数据仓库与数据挖掘 1.背景材料 2.案例分析 WEB挖掘继承了传统数据挖掘的过程，即数据收集、数据预处理、模式发现、模式分析及应用，但是WEB挖掘的各个过程与传统的数据挖掘又不全相同； Web挖掘是一项涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域的综合技术【导入案例】数据仓库与数据挖掘 Web站点上数据的特点数据量巨大，动态性极强，并且增长速度惊人；异构数据库环境，Web页面的结构比一般文本文件复杂很多，它可以支持多种媒体的表达；半结构化的数据结构。 4.1 Web数据挖掘流程数据仓库与数据挖掘 4.1 Web数据挖掘流程处理流程：查找资源信息选择和预处理模式发现模式分析信息获得和信息抽取相当重要数据仓库与数据挖掘 4.2 Web数据挖掘分类 Web数据的类型：HTML标记的web文档数据、Web文档内的链接的结构数据、用户访问数据 Web数据挖掘分为：内容挖掘、结构挖掘、访问控制挖掘。如下图：数据仓库与数据挖掘 4.2.1 Web内容挖掘概述两个观点：从资源查找（Information Retrival）的观点挖掘非结构化文档非结构化文档：web上的自由文本，包括小说、新闻等。词汇袋(Bag of Words)或称向量表示法（Vector Representation）：将单个的词汇看成文档集合中的属性，只从统计的角度将词汇孤立地看待而忽略了该词汇出现的位置和上下文环境。数据仓库与数据挖掘 4.2.1 Web内容挖掘概述从数据库（Database）的观点挖掘非结构化文档主要解决Web信息的管理和查询问题。 Web信息的建模和查询信息抽取与集成 Web站点建构和重构数据仓库与数据挖掘 4.2.2 Web结构挖掘概述挖掘对象：Web本身的超链接目的：发现链接之间的有用信息引用分析研究：网页之间的关系分为incoming链接和outgoing链接运用引用分析方法找到同一网站内部及以不同网站之间的链接关系著名算法：HITS、PangeRank Web数据仓库环境下的挖掘数据仓库与数据挖掘 4.2.3 Web访问挖掘概述概念：即Web使用记录挖掘，通过挖掘相关的Web日志记录，来发现用户访问Web页面的模式，通过分析日志记录中的规律，可以识别用户的忠实度、喜好、满意度，可以发现潜在的用户、增强站点的服务竞争力。挖掘方式：间接挖掘：将web使用记录转换到关系表，基于关系表的挖掘直接挖掘：将web使用记录的数据直接预处理再进行挖掘数据仓库与数据挖掘 4.2.3 Web访问挖掘概述 Web使用挖掘可分为5类：个性挖掘系统改进站点修改智能商务 Web特征描述数据仓库与数据挖掘 4.3 WUM挖掘过程 Web使用挖掘一般有4个过程：数据预处理、模式发现、模式分析、模式应用数据仓库与数据挖掘 4.3.1 WUM数据预处理预处理主要对用户访问日志进行数据清洗（Data Cleaning）、用户唯一性识别（User Identification）、用户会话识别（Identify User Session）、路径补充（Path Completion）和事务识别（transaction identification）等处理。数据仓库与数据挖掘 4.3.1 WUM数据预处理源数据收集从3方面收集：服务器端、客户端、代理端日志类型： Access Log：访问日志 Refer Log：请求页面信息 Cookie Log：由Web Server产生的标记号，并由客户端持有，用于识别用户和用户会话。数据类型：内容数据、结构数据、使用数据、用户资料数据仓库与数据挖掘 4.3.1 WUM数据预处理使用数据预处理数据清理：清除与挖掘算法无关的数据。图片、框架等非用户请求逻辑单位 Web Robot的浏览日志噪声和错误信息用户识别：IP地址、浏览器软件或操作系统、Refer Log 会话识别：会话是指同一用户连续请求的页面路径补充事务识别数据仓库与数据挖掘 4.3.1 WUM数据预处理内容预处理：把文件、图像、脚本及其他文件等转换为Web使用挖掘处理所需要的数据格式。结构预处理数据仓库与数据挖掘模式发现阶段就是利用挖掘算