第6章 Web挖掘与文本分析.pptx

下载文档

5
0
约3.89千字
约 29页
2021-08-26 发布于湖北
举报
版权申诉
保障服务

第6章 Web挖掘与文本分析.pptx

1、本文档共29页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第6章 Web挖掘与文本分析商业智能：方法与应用 5.1 Web挖掘概述 5.2网页信息抓取 5.3 中文分词网页信息抓取实例网页信息抓取原理基本概念常见的分词方法开源的中文分词器 5.4 情感分析 5.1 Web挖掘概述 Web挖掘（Web mining）是数据挖掘技术在互联网上的应用技术，通过收集网络数据形成结构化和和非结构化信息，并在此基础上抽取出隐含的知识和模式。 Web使用挖掘的目标是从Web数据中发现用户的使用模式，从而根据用户的使用情况和需求，不断调整Web应用程序的设计。数据包括Web用户的身份、来源以及他们在Web站点上的浏览行为。 Web使用挖掘 Web内容挖掘是从Web页面内容中挖掘、提取和集成有用的数据、信息和知识，包括半结构化数据或非结构化数据。 Web内容挖掘 Web结构挖掘采用图论的方法来分析网站中页面节点的连接关系。Web结构挖掘的主要目标是生成Web站点和Web页面的结构图。 Web结构挖掘 Web挖掘的关联关系 5.2 网页信息抓取概念方法过程 Web内容挖掘的基础是从网页中抓取信息通过专门的软件或针对网站进行个性化的软件开发抓取目标数据下载并完整解析目标数据所在的网页从下载到的网页中获取相应的目标数据手工获取，对访问对象逐一打开，并将所需内容进行复制整理使用网络数据抓取软件，对目标网站进行批量下载通过编写爬虫程序，自定义抓取策略，获取目标网页的数据概念网络爬虫是自动提取网页的程序，它实现的基础是基于互联网本身的拓扑结构是一个联通的图，通过网络爬虫将互联网中的网页进行爬取后，分析页面内容，并对这些网页进行索引，进而提供对页面内容进行检索的功能。爬取方式直接爬取页面完整数据局部刷新爬取页面数据级联页面数据规则URL页面爬取非规则URL页面爬取需登录验证或特定请求格式爬取需动态变更IP地址爬取网络爬虫基本原理图直接爬取页面复杂的获取形式模拟用户访问 AJAX 方法通过一个请求就可以将对应URL的页面一次性全部获取到按步骤地触发页面的响应事件，并模拟浏览器调用脚本引擎执行相应的Javascript程序，重新更新页面以获取完整的数据分析AJAX异步调用过程中所访问的服务器接口，分析其对应接口的请求构造和返回值优点最为简单直接伪装效果好，不易被服务器端察觉为爬虫程序执行效率低，数据获取的效果很大程度取决于模拟器是否完善可靠缺点简单直接，效率高容易被判为爬虫，并且需要逐步分析AJAX的调用流程，增大了工作量模拟用户输入用户账户信息，完成登录过程特点：这种方式实现简单，模拟效果好，但局限于Javascript解析引擎的解析效果构造登录的页面表单，提交表单，完成验证特点：这种方式效率高，但需要做相应的登录表单分析工作，容易被服务器端检测并判为爬虫程序，拒绝其登录先正常的登录验证，单独提取Cookie信息，供后续使用特点：Cookie通常存在一定的有效期，过了有效期后服务器就需要用户再一次进行身份验证。用户登录验证的三种方式静态数据 AJAX动态更新数据动态解析数据存在形式简单，静态数据在浏览器端和服务器端是同构的，是一份数据的两份一致的副本，因此是最容易处理和提取的数据形式。由服务器程序响应浏览器请求并返回数据的，其返回数据存在较高的不可预见性，因此获取数据的难度也因此提升。具有高不可预见性，同一页面会由于用户具体的操作内容不同而产生不同的数据，因此，AJAX形式的数据获取的难度最高，所需设计的策略也更为复杂。基于正则表达式基于逻辑判断选择基于树结构基于机器学习一个典型的基于正则的网页包装器是W4F，W4F为了降低用户对HTML语法的学习成本，使用了向导的方式指引用户标记处其目标数据。并根据这些目标数据生成相应的正则表达式，从而获取目标数据。其核心思想是设计一门专用的包装器编程语言来完成包装器设计工作，基于包装器设计语言的工具将网页视为一个半结构化的树状文档（即DOM）而不是一串纯粹的字符串序列。基于树的包装器主要讨论的问题是包装器所提取的目标数据与树结构特征的对应关系，将数据的提取过程映射为树结构元素的匹配定位问题，并可有多种策略解决这一问题。机器学习技术适用于获取互联网页面中特定领域的信息，一旦获得一个训练完备的模型，那么该模型便可有效地获取目标数据，而且灵