- 1
- 0
- 约1.19万字
- 约 114页
- 2019-03-06 发布于浙江
- 举报
Part III - Web Mining ? 浙江万里学院 数据挖掘教程第三部分 高级课题 主讲:黄剑 数据挖掘提纲 第一部分 概述 相关概念 数据挖掘技术 第二部分 分类 聚类 关联规则 第三部分 Web 挖掘 空间数据挖掘 时序数据挖掘 Web 挖掘 目标: 探索在万维网中数据挖掘的使用 引言 Web 内容挖掘 Web 结构挖掘 Web使用挖掘 Web 挖掘问题 规模 3.5亿个网页 (1999) 一天100万的速度增长 Google 宣布索引了30亿个网页 多种类型的web数据 Web 数据 Web 网页本身内容 网页内部结构 网页之间的链接结构 描述网页被如何访问的使用数据 用户简档 概况 注册信息 Cookies Web 挖掘分类 Web 内容挖掘 基本搜索引擎所完成工作的扩展 搜索引擎 信息检索 基于关键字的 类似的查询和文档 爬虫 索引 概况 连接分析 爬虫 机器人 (蜘蛛) 遍历网页超文本结构的程序 收集被访问页面的信息 为搜索引擎构造索引 传统爬虫 – 收集每个网页信息,然后替换原来的索引 周期性爬虫 – 访问部分WEB页面,替换更新原来的部分索引 增量爬虫 – 有选择的搜索网页,然后增量的更新索引(非替换) 专用爬虫 – 访问有关的特定的页面 专用爬虫 只访问与特定主题相关的网页. 在经过学习阶段后,爬虫的分类器是静态的. 组成部分: 超文本分类器,对每个网页依据其与主题的相关程度打分。. 提取器,用于确定 中心页. 爬虫,用于遍历万维网。. 专用爬虫 分类器分类与主题相关的文档 分类器估计如果访问由该网页链向的其他网页所获得的收益大小 中心网页 包含若干相关链接的网页. 即使本身与主题的相关性不高,也必须访问. 专用爬虫 上下文专用爬虫 上下文图: 为每个初始网页创建上下文图 . 根结点代表初始网页. 每层的结点代表对应的网页,并且与下层之间有链接. 被爬虫自我更新 . 步骤: 基于初始网页集构造上下文图和分类器. 在分类器和上下文图的指导下进行搜索. 上下文图 虚拟 Web 视图 多层数据库 (MLDB) 在网页数据上. 数据库的每层要比它下一层更概括. 上层的数据是结构化的,可以用像SQL一样的查询语言存储(挖掘). 翻译工具把网页文档转化为XML格式. 抽取工具抽取想要的信息,并插入多层数据库的第一层. 上层数据大多是通过下层数据概括所得的总结性的信息. 个性化 网页访问或者网页内容可以被更改从而更好的适应用户的需求. 使用手工技术进行个性化,基于用户简档或统计信息建立的个则对用户分类. 协同过滤技术: 把以前相似用户评价为喜欢的信息推荐给用户. 基于内容过滤 基于网页内容和用户简档信息之间的相似性搜索网页. Web 结构挖掘 建立一个可以对网页分类或建立相似性度量的模型 技术 PageRank CLEVER 创建一个 Web组织模型. 可以结合结构挖掘技术,提高搜索引擎和爬虫的效果. PageRank GOOGLE所使用的 为传统搜索引擎使用关键字搜索的结果进行排序. PR值是通过指向它的网页计算的 – 反向连接. PR值不光考虑反向连接的数目,而且反应了反向连接的质量。来自重要网页的连接给予更高的权值. PageRank (续) PR(p) = c (PR(1)/N1 + … + PR(n)/Nn) PR(i): 链接指向网页p的网页i的PR值. Ni: i指向其他网页的链接个数 CLEVER 识别权威网页和中心网页. 权威网页 : 质量,地位高的网页. 对请求的信息来说是“最好的源“的网页. 中心网页 : 含有指向权威网页链接的. HITS Hyperlink-Induces Topic Search 基于一组给定的关键词,发现一组相关网页 – R. 针对这些网页,进行权威性度量和作为中心网页的度量,识别出权威网页和中心网页. 通过在集合R中加入它的前向和后向链接网页得到集合B. 在B中得到中心网页和权威网页 返回度量高的网页. HITS Algorithm Web 使用挖掘应用 个性化 改善网站的设计 预测用户可能经常访问的网页,并对网页进行预存取和缓存 改变网站的链接结构 提高电子商务效率,如广告效果,销售效果等 Web 使用挖掘包含的事物 预处理工作 清洗 删除无用信息 格式转换 模式发现 通过点击流数据发现浏览模式 浏览模式 是在一个会话中用户访问的一组网页. 其他模式 模式分析 Web 使用挖掘相关问题 仅从日志数据准确的识别用户是不可能的. 使用Web客户端缓存,从服务器站点很难发现用户访问的网页序列. 一个会话很难被定义 存在许多安全,隐私和法律上的问题 Web 日志预处理(清洗) 源站点使用唯一标示识别—用
您可能关注的文档
- 室内分布信号时延定位法.doc
- 室内给水管道与配件安装.doc
- 室内质量控制与质控规则.ppt
- 室内装饰控制措施.docx
- 收藏钻饰有四招.doc
- 收入分配调查报告.doc
- 收入分配调查报告张志铭.doc
- 收音机装配实训指导书.doc
- 手把手教你挑选最适合自己婚纱.doc
- 手机录屏渐成常态.doc
- 2026年服务业旅游行业复苏与沉浸式体验创新趋势分析.docx
- 2026年桂皮加工行业市场拓展与品牌建设研究报告.docx
- 2026年5G基站建设市场需求预测报告.docx
- 2026年蓝莓加工行业市场融资分析.docx
- 2025至2030网上购物行业深度研究及发展前景投资评估分析.docx
- 2026年服务业摄影摄像服务行业商业模式创新报告.docx
- 2026年5G基站建设应用场景及产业链发展前景.docx
- 2026年自动驾驶行业测试标准及未来五至十年行业创新报告.docx
- 2026年医疗AI药物研发平台行业创新报告.docx
- 2025-2030中国磨粉磨浆机行业市场现状供需分析及投资评估规划分析研究报告.docx
最近下载
- 基于灰色关联理论的广西农产品供应链影响因素分析.docx
- 关于绑架的小故事-绑架关起来的故事.docx VIP
- 游戏公司UI设计师面试题.docx VIP
- 基于模糊层次分析和灰色关联分析的供应商评价选择研究.pdf VIP
- 关于层次分析法和灰色关联分析法的研究详解.doc VIP
- 高考一轮复习讲义第一讲学生 三角函数的概念同角三角函数关系式与诱导公式.doc VIP
- 高考数学 一轮复习讲义 任意角的三角函数.docx VIP
- 国际贸易实务实训教程.pdf VIP
- 高考数学 一轮复习讲义 -简单的三角恒等变换.docx VIP
- 如果要写年(带歌词完整版毛不易2024春晚歌曲) 高清钢琴谱五线谱.docx VIP
原创力文档

文档评论(0)