- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第4章 Web挖掘技术精品
数据仓库与数据挖掘 数据仓库与数据挖掘 第4章 Web挖掘技术 【教学目标与要求】 了解WEB数据挖掘的发展现状、分类及其流程 掌握WEB使用挖掘的过程和方法 理解WEB结构挖掘的数据源处理和算法 了解WEB内容挖掘的流程 数据仓库与数据挖掘 4.1 Web数据挖掘流程 4.2 Web数据挖掘分类 4.3 WUM挖掘过程 4.4 WEB结构挖掘 4.5 WEB内容挖掘 内容 数据仓库与数据挖掘 1.背景材料 2.案例分析 WEB挖掘继承了传统数据挖掘的过程,即数据收集、数据预处理、模式发现、模式分析及应用,但是WEB挖掘的各个过程与传统的数据挖掘又不全相同; Web挖掘是一项涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域的综合技术 【导入案例】 数据仓库与数据挖掘 Web站点上数据的特点 数据量巨大,动态性极强,并且增长速度惊人; 异构数据库环境,Web页面的结构比一般文本文件复杂很多,它可以支持多种媒体的表达; 半结构化的数据结构。 4.1 Web数据挖掘流程 数据仓库与数据挖掘 4.1 Web数据挖掘流程 处理流程: 查找资源 信息选择和预处理 模式发现 模式分析 信息获得和信息抽取相当重要 数据仓库与数据挖掘 4.2 Web数据挖掘分类 Web数据的类型:HTML标记的web文档数据、Web文档内的链接的结构数据、用户访问数据 Web数据挖掘分为:内容挖掘、结构挖掘、访问控制挖掘。如下图: 数据仓库与数据挖掘 4.2.1 Web内容挖掘概述 两个观点: 从资源查找(Information Retrival)的观点挖掘非结构化文档 非结构化文档:web上的自由文本,包括小说、新闻等。 词汇袋(Bag of Words)或称向量表示法(Vector Representation):将单个的词汇看成文档集合中的属性,只从统计的角度将词汇孤立地看待而忽略了该词汇出现的位置和上下文环境。 数据仓库与数据挖掘 4.2.1 Web内容挖掘概述 从数据库(Database)的观点挖掘非结构化文档 主要解决Web信息的管理和查询问题。 Web信息的建模和查询 信息抽取与集成 Web站点建构和重构 数据仓库与数据挖掘 4.2.2 Web结构挖掘概述 挖掘对象:Web本身的超链接 目的:发现链接之间的有用信息 引用分析研究: 网页之间的关系分为incoming链接和outgoing链接 运用引用分析方法找到同一网站内部及以不同网站之间的链接关系 著名算法:HITS、PangeRank Web数据仓库环境下的挖掘 数据仓库与数据挖掘 4.2.3 Web访问挖掘概述 概念:即Web使用记录挖掘,通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在的用户、增强站点的服务竞争力。 挖掘方式: 间接挖掘:将web使用记录转换到关系表,基于关系表的挖掘 直接挖掘:将web使用记录的数据直接预处理再进行挖掘 数据仓库与数据挖掘 4.2.3 Web访问挖掘概述 Web使用挖掘可分为5类: 个性挖掘 系统改进 站点修改 智能商务 Web特征描述 数据仓库与数据挖掘 4.3 WUM挖掘过程 Web使用挖掘一般有4个过程:数据预处理、模式发现、模式分析、模式应用 数据仓库与数据挖掘 4.3.1 WUM数据预处理 预处理主要对用户访问日志进行数据清洗(Data Cleaning)、用户唯一性识别(User Identification)、用户会话识别(Identify User Session)、路径补充(Path Completion)和事务识别(transaction identification)等处理。 数据仓库与数据挖掘 4.3.1 WUM数据预处理 源数据收集 从3方面收集:服务器端、客户端、代理端 日志类型: Access Log:访问日志 Refer Log:请求页面信息 Cookie Log:由Web Server产生的标记号,并由客户端持有,用于识别用户和用户会话。 数据类型:内容数据、结构数据、使用数据、用户资料 数据仓库与数据挖掘 4.3.1 WUM数据预处理 使用数据预处理 数据清理:清除与挖掘算法无关的数据。 图片、框架等非用户请求逻辑单位 Web Robot的浏览日志 噪声和错误信息 用户识别:IP地址、浏览器软件或操作系统、Refer Log 会话识别:会话是指同一用户连续请求的页面 路径补充 事务识别 数据仓库与数据挖掘 4.3.1 WUM数据预处理 内容预处理:把文件、图像、脚本及其他文件等转换为Web使用挖掘处理所需要的数据格式。 结构预处理 数据仓库与数据挖掘 模式发现阶段就是利用挖掘算
文档评论(0)