第6章 Web挖掘与文本分析.pptx

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6章 Web挖掘与文本分析 商业智能:方法与应用 5.1 Web挖掘概述 5.2网页信息抓取 5.3 中文分词 网页信息抓取实例 网页信息抓取原理 基本概念 常见的分词方法 开源的中文分词器 5.4 情感分析 5.1 Web挖掘概述 Web挖掘(Web mining)是数据挖掘技术在互联网上 的应用技术,通过收集网络数据形成结构化和和非结 构化信息,并在此基础上抽取出隐含的知识和模式。 Web使用挖掘的目标是从Web数据中发现用户的使用模式,从而根据用户的使用情况和需求,不断调整Web应用程序的设计。数据包括Web用户的身份、来源以及他们在Web站点上的浏览行为。 Web使用挖掘 Web内容挖掘是从Web页面内容中挖掘、提取和集成有用的数据、信息和知识,包括半结构化数据或非结构化数据。 Web内容挖掘 Web结构挖掘采用图论的方法来分析网站中页面节点的连接关系。Web结构挖掘的主要目标是生成Web站点和Web页面的结构图。 Web结构挖掘 Web挖掘的关联关系 5.2 网页信息抓取 概念 方法 过程 Web内容挖掘的基础是从网页中抓取信息 通过专门的软件或针对网站进行个性化的软件开发抓取目标数据 下载并完整解析目标数据所在的网页 从下载到的网页中获取相应的目标数据 手工获取,对访问对象逐一打开,并将所需内容进行复制整理 使用网络数据抓取软件,对目标网站进行批量下载 通过编写爬虫程序,自定义抓取策略,获取目标网页的数据 概念 网络爬虫是自动提取网页的程序,它实现的基础是基于互联网本身的拓扑结构是一个联通的图,通过网络爬虫将互联网中的网页进行爬取后,分析页面内容,并对这些网页进行索引,进而提供对页面内容进行检索的功能。 爬取方式 直接爬取页面完整数据 局部刷新爬取页面数据 级联页面数据 规则URL页面爬取 非规则URL页面爬取 需登录验证或特定请求格式爬取 需动态变更IP地址爬取 网络爬虫基本原理图 直接爬取页面 复杂的获取形式 模拟用户访问 AJAX 方法 通过一个请求就可以将对应URL的页面一次性全部获取到 按步骤地触发页面的响应事件,并模拟浏览器调用脚本引擎执行相应的Javascript程序,重新更新页面以获取完整的数据 分析AJAX异步调用过程中所访问的服务器接口,分析其对应接口的请求构造和返回值 优点 最为简单直接 伪装效果好,不易被服务器端察觉为爬虫程序 执行效率低,数据获取的效果很大程度取决于模拟器是否完善可靠 缺点 简单直接,效率高 容易被判为爬虫,并且需要逐步分析AJAX的调用流程,增大了工作量 模拟用户输入用户账户信息,完成登录过程 特点:这种方式实现简单,模拟效果好,但局限于Javascript解析引擎的解析效果 构造登录的页面表单,提交表单,完成验证 特点:这种方式效率高,但需要做相应的登录表单分析工作,容易被服务器端检测并判为爬虫程序,拒绝其登录 先正常的登录验证,单独提取Cookie信息,供后续使用 特点:Cookie通常存在一定的有效期,过了有效期后服务器就需要用户再一次进行身份验证。 用户登录验证的三种方式 静态数据 AJAX动态更新数据 动态解析数据 存在形式简单,静态数据在浏览器端和服务器端是同构的,是一份数据的两份一致的副本,因此是最容易处理和提取的数据形式。 由服务器程序响应浏览器请求并返回数据的,其返回数据存在较高的不可预见性,因此获取数据的难度也因此提升。 具有高不可预见性,同一页面会由于用户具体的操作内容不同而产生不同的数据,因此,AJAX形式的数据获取的难度最高,所需设计的策略也更为复杂。 基于 正则表达式 基于 逻辑判断选择 基于 树结构 基于 机器学习 一个典型的基于正则的网页包装器是W4F,W4F为了降低用户对HTML语法的学习成本,使用了向导的方 式指引用户标记处其目标数据。 并根据这些目标数据生成相 应的正则表达式,从而获 取目标数据。 其核心思想是设计一门专用的包装器 编程语言来完成包装器设计工作, 基于包装器设计语言的工具将 网页视为一个半结构化的 树状文档(即DOM)而 不是一串纯粹的字符串 序列。 基于树的包装器主要讨论 的问题是包装器所提取的目 标数据与树结构特征的对应关 系,将数据的提取过程映射为树 结构元素的匹配定位问题,并可有 多种策略解决这一问题。 机器学习技术适用于获取 互联网页面中特定领域的信 息,一旦获得一个训练完备的模型,那么该模型便可有效地获取目标数据,而且灵

文档评论(0)

执着仅一次 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档