[理学]数据挖掘导论_翻译PPT_第三部分.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[理学]数据挖掘导论_翻译PPT_第三部分

Part III - Web Mining ? 浙江万里学院 数据挖掘教程 第三部分 高级课题 主讲:黄剑 数据挖掘提纲 第一部分 概述 相关概念 数据挖掘技术 第二部分 分类 聚类 关联规则 第三部分 Web 挖掘 空间数据挖掘 时序数据挖掘 Web 挖掘 目标: 探索在万维网中数据挖掘的使用 引言 Web 内容挖掘 Web 结构挖掘 Web使用挖掘 Web 挖掘问题 规模 3.5亿个网页 (1999) 一天100万的速度增长 Google 宣布索引了30亿个网页 多种类型的web数据 Web 数据 Web 网页本身内容 网页内部结构 网页之间的链接结构 描述网页被如何访问的使用数据 用户简档 概况 注册信息 Cookies Web 挖掘分类 Web 内容挖掘 基本搜索引擎所完成工作的扩展 搜索引擎 信息检索 基于关键字的 类似的查询和文档 爬虫 索引 概况 连接分析 爬虫 机器人 (蜘蛛) 遍历网页超文本结构的程序 收集被访问页面的信息 为搜索引擎构造索引 传统爬虫 – 收集每个网页信息,然后替换原来的索引 周期性爬虫 – 访问部分WEB页面,替换更新原来的部分索引 增量爬虫 – 有选择的搜索网页,然后增量的更新索引(非替换) 专用爬虫 – 访问有关的特定的页面 专用爬虫 只访问与特定主题相关的网页. 在经过学习阶段后,爬虫的分类器是静态的. 组成部分: 超文本分类器,对每个网页依据其与主题的相关程度打分。. 提取器,用于确定 中心页. 爬虫,用于遍历万维网。. 专用爬虫 分类器分类与主题相关的文档 分类器估计如果访问由该网页链向的其他网页所获得的收益大小 中心网页 包含若干相关链接的网页. 即使本身与主题的相关性不高,也必须访问. 专用爬虫 上下文专用爬虫 上下文图: 为每个初始网页创建上下文图 . 根结点代表初始网页. 每层的结点代表对应的网页,并且与下层之间有链接. 被爬虫自我更新 . 步骤: 基于初始网页集构造上下文图和分类器. 在分类器和上下文图的指导下进行搜索. 上下文图 虚拟 Web 视图 多层数据库 (MLDB) 在网页数据上. 数据库的每层要比它下一层更概括. 上层的数据是结构化的,可以用像SQL一样的查询语言存储(挖掘). 翻译工具把网页文档转化为XML格式. 抽取工具抽取想要的信息,并插入多层数据库的第一层. 上层数据大多是通过下层数据概括所得的总结性的信息. 个性化 网页访问或者网页内容可以被更改从而更好的适应用户的需求. 使用手工技术进行个性化,基于用户简档或统计信息建立的个则对用户分类. 协同过滤技术: 把以前相似用户评价为喜欢的信息推荐给用户. 基于内容过滤 基于网页内容和用户简档信息之间的相似性搜索网页. Web 结构挖掘 建立一个可以对网页分类或建立相似性度量的模型 技术 PageRank CLEVER 创建一个 Web组织模型. 可以结合结构挖掘技术,提高搜索引擎和爬虫的效果. PageRank GOOGLE所使用的 为传统搜索引擎使用关键字搜索的结果进行排序. PR值是通过指向它的网页计算的 – 反向连接. PR值不光考虑反向连接的数目,而且反应了反向连接的质量。来自重要网页的连接给予更高的权值. PageRank (续) PR(p) = c (PR(1)/N1 + … + PR(n)/Nn) PR(i): 链接指向网页p的网页i的PR值. Ni: i指向其他网页的链接个数 CLEVER 识别权威网页和中心网页. 权威网页 : 质量,地位高的网页. 对请求的信息来说是“最好的源“的网页. 中心网页 : 含有指向权威网页链接的. HITS Hyperlink-Induces Topic Search 基于一组给定的关键词,发现一组相关网页 – R. 针对这些网页,进行权威性度量和作为中心网页的度量,识别出权威网页和中心网页. 通过在集合R中加入它的前向和后向链接网页得到集合B. 在B中得到中心网页和权威网页 返回度量高的网页. HITS Algorithm Web 使用挖掘应用 个性化 改善网站的设计 预测用户可能经常访问的网页,并对网页进行预存取和缓存 改变网站的链接结构 提高电子商务效率,如广告效果,销售效果等 Web 使用挖掘包含的事物 预处理工作 清洗 删除无用信息 格式转换 模式发现 通过点击流数据发现浏览模式 浏览模式 是在一个会话中用户访问的一组网页. 其他模式 模式分析 Web 使用挖掘相关问题 仅从日志数据准确的识别用户是不可能的. 使用Web客户端缓存,从服务器站点很难发现用户访问的网页序列. 一个会话很难被定义 存在许多安全,隐私和法律上的问题 Web 日志预处理(清洗) 源站点使用唯一标示识别—用

文档评论(0)

hhuiws1482 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档