[理学]数据挖掘导论_翻译PPT_第三部分.ppt

下载文档 降价啦

1
0
约1.19万字
约 114页
2018-02-16 发布于浙江
举报
版权申诉
保障服务

[理学]数据挖掘导论_翻译PPT_第三部分.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[理学]数据挖掘导论_翻译PPT_第三部分

Part III - Web Mining ? 浙江万里学院数据挖掘教程第三部分高级课题主讲：黄剑数据挖掘提纲第一部分概述相关概念数据挖掘技术第二部分分类聚类关联规则第三部分 Web 挖掘空间数据挖掘时序数据挖掘 Web 挖掘目标: 探索在万维网中数据挖掘的使用引言 Web 内容挖掘 Web 结构挖掘 Web使用挖掘 Web 挖掘问题规模 3.5亿个网页 (1999) 一天100万的速度增长 Google 宣布索引了30亿个网页多种类型的web数据 Web 数据 Web 网页本身内容网页内部结构网页之间的链接结构描述网页被如何访问的使用数据用户简档概况注册信息 Cookies Web 挖掘分类 Web 内容挖掘基本搜索引擎所完成工作的扩展搜索引擎信息检索基于关键字的类似的查询和文档爬虫索引概况连接分析爬虫机器人 (蜘蛛) 遍历网页超文本结构的程序收集被访问页面的信息为搜索引擎构造索引传统爬虫 – 收集每个网页信息，然后替换原来的索引周期性爬虫 – 访问部分WEB页面，替换更新原来的部分索引增量爬虫 – 有选择的搜索网页，然后增量的更新索引（非替换）专用爬虫 – 访问有关的特定的页面专用爬虫只访问与特定主题相关的网页. 在经过学习阶段后，爬虫的分类器是静态的. 组成部分: 超文本分类器，对每个网页依据其与主题的相关程度打分。. 提取器，用于确定中心页. 爬虫，用于遍历万维网。. 专用爬虫分类器分类与主题相关的文档分类器估计如果访问由该网页链向的其他网页所获得的收益大小中心网页包含若干相关链接的网页. 即使本身与主题的相关性不高，也必须访问. 专用爬虫上下文专用爬虫上下文图: 为每个初始网页创建上下文图 . 根结点代表初始网页. 每层的结点代表对应的网页，并且与下层之间有链接. 被爬虫自我更新 . 步骤: 基于初始网页集构造上下文图和分类器. 在分类器和上下文图的指导下进行搜索. 上下文图虚拟 Web 视图多层数据库 (MLDB) 在网页数据上. 数据库的每层要比它下一层更概括. 上层的数据是结构化的，可以用像SQL一样的查询语言存储（挖掘）. 翻译工具把网页文档转化为XML格式. 抽取工具抽取想要的信息，并插入多层数据库的第一层. 上层数据大多是通过下层数据概括所得的总结性的信息. 个性化网页访问或者网页内容可以被更改从而更好的适应用户的需求. 使用手工技术进行个性化，基于用户简档或统计信息建立的个则对用户分类. 协同过滤技术：把以前相似用户评价为喜欢的信息推荐给用户. 基于内容过滤基于网页内容和用户简档信息之间的相似性搜索网页. Web 结构挖掘建立一个可以对网页分类或建立相似性度量的模型技术 PageRank CLEVER 创建一个 Web组织模型. 可以结合结构挖掘技术，提高搜索引擎和爬虫的效果. PageRank GOOGLE所使用的为传统搜索引擎使用关键字搜索的结果进行排序. PR值是通过指向它的网页计算的 – 反向连接. PR值不光考虑反向连接的数目，而且反应了反向连接的质量。来自重要网页的连接给予更高的权值. PageRank (续) PR(p) = c (PR(1)/N1 + … + PR(n)/Nn) PR(i): 链接指向网页p的网页i的PR值. Ni: i指向其他网页的链接个数 CLEVER 识别权威网页和中心网页. 权威网页 : 质量，地位高的网页. 对请求的信息来说是“最好的源“的网页. 中心网页 : 含有指向权威网页链接的. HITS Hyperlink-Induces Topic Search 基于一组给定的关键词，发现一组相关网页 – R. 针对这些网页，进行权威性度量和作为中心网页的度量，识别出权威网页和中心网页. 通过在集合R中加入它的前向和后向链接网页得到集合B. 在B中得到中心网页和权威网页返回度量高的网页. HITS Algorithm Web 使用挖掘应用个性化改善网站的设计预测用户可能经常访问的网页，并对网页进行预存取和缓存改变网站的链接结构提高电子商务效率，如广告效果，销售效果等 Web 使用挖掘包含的事物预处理工作清洗删除无用信息格式转换模式发现通过点击流数据发现浏览模式浏览模式是在一个会话中用户访问的一组网页. 其他模式模式分析 Web 使用挖掘相关问题仅从日志数据准确的识别用户是不可能的. 使用Web客户端缓存，从服务器站点很难发现用户访问的网页序列. 一个会话很难被定义存在许多安全，隐私和法律上的问题 Web 日志预处理（清洗）源站点使用唯一标示识别—用