网站大量收购独家精品文档,联系QQ:2885784924

网络爬虫技术(新).docxVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
。 。 网络爬虫技术 网络机器人 1. 概念 : 它 们是 Web 上 独 自 运行 的软 件程 序 ,它 们不 断 地筛 选数 据 ,做 出自 己 的 决 定 , 能 够使 用 Web 获取 文本 或者 进行 搜 索查 询, 按 部就 班地 完 成各 自的 任 务。 2.分类: 购 物机 器人 、聊 天机 器人 、 搜 索 机 器 人( 网络 爬虫 ) 等 。 搜索引擎 1.概念: 从 网络 上 获得 网站 网页 资料 ,能 够建 立数 据库 并提 供查 询的 系统 。 2. 分 类 ( 按 工 作原 理 ) : 全 文搜 索引 擎、 分类 目录 。 全 文搜 索引 擎 数据 库是 依靠 网络 爬虫 通过 网络 上的 各种 链接 自动 获取 大量 网 页信 息内 容, 并按 一定 的规 则分 析整 理形 成的 。 ( 百 度、 Google ) 分 类目 录: 按 目 录分 类的 网 站链 接列 表 而已 , 通 过人 工的 方式 收集 整理 网 站 资料 形成 的数 据库 。 ( 国 内的 搜狐 ) 网络爬虫 1. 概 念 : 网 络爬 虫也 叫网 络蜘 蛛, 它 是 一个 按照 一定 的规 则 自 动提 取网 页 程序 ,其 会自 动 的 通过 网络 抓取 互联 网上 的网 页, 这种 技术 一般 可能 用来 检查 你的 站点 上所 有的 链接 是 否 是都 是有 效的 。当 然, 更为 高级 的技 术是 把网 页中 的相 关数 据保 存下 来, 可以 成为 搜 索 引擎 。 搜索引擎使用网络爬虫寻找网络内容,网络上的 HTML 文档使用超链接连接了起来, 就像织成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程 序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。网络 爬虫总是要从某个起点开始爬,这个起点叫做种子,你可以告诉它,也可以到一些网址列 表网站上获取。 2. 区 别 : 网络爬虫 分类 通用爬虫 聚集爬虫 工作原理 从一个或多个初始网页的 URL 开 始,获取初始网页的 URL,抓取网 页的同时,从当前网页提取相关的 URL 放入队列中,直到满足程序的 停止条件。 根据一定的网页分析算法过滤与主题无 关的链接,保留有用的链接(爬行的范围 是受控的)放到待抓取的队列中,通过一 定的搜索策略从队列中选择下一步要抓 取的 URL,重复以上步骤,直到满足程 序的停止条件。 不同点 1. 增加了一些网页分析算法和网页搜 索策略 2. 对 被 爬 虫抓 取的 网页 将会 被系 统存 贮 ,进 行一 定的 分析 、过 滤, 并建 立 索引 ,以 便之 后的 查询 和检 索 , 这 一 过 程所 得 到的 分析 结 果还 可能 对 以后 的抓 取过 程给 出反 馈和 指导 缺点 1. 不 同 领域 、不 同背 景的 用户 有 不 同的 检索 目的 和需 求, 通用 搜 索引 擎所 返回 的结 果包 含大 量 用户 不关 心的 网页 。 2. 通用引擎的目标是大的网络覆 盖率。 3. 只支持关键字搜索,不支持根 据语义的搜索。 4. 通用搜索引擎对一些像图片、 音频等信 息 含量 密集 且具 有一 定 结构 的数 据 无 法 获 取。 1. 对抓取目标的描述或定义。 2. 对网页和数据的分析和过滤。 3. 对 URL 的搜索策略。 以上三个是需要解决的问题。 算法 广度优先算法 现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于 领域概念 3 种。 基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样 本获取方式可分为: 预先给定的初始抓取种子样本; 预先给定的网页分类目录和与分类目录对应的种子样本,如 Yahoo!分类结构等 ; (3)通过用户行为确定的抓取目标样例,分为: 用户浏览过程中显示标注的抓取样本; 通过用户日志挖掘得到访问模式及相关样本。 其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。 3.算法/策略 名称 网页分析算法 网页搜索策略 分类 1.基于网络拓扑结构 1网页粒度分析算法 2网站粒度分析算法 3网页块粒度分析算法 2.基于网页内容 1针对以文本和超链接为主的 网页 2针对从结构化的数据源动态生 成的网页。 3针对数据介于第一类和第二类 之间 3.基于用户访问行为 1.深度优先策略 2.广度优先策略 3.最佳优先策略 一些算法的介绍 1 网页分析算法 1.1 基于网络拓扑的分析算法   基于网页之间的链接,通过已知的网页或数据,来对与其有直接或间接链接关系的对 象(可以是网页或网站等)作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这 三种。   1.1.1 网页(Webpage)

文档评论(0)

kongbaipan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档