搜索引擎系统的设计与实现.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机专业论文答辩稿件,请参考下载!!!

搜 索 引 擎 的 研 究 与 实 现 搜 索 引 擎 的 研 究 与 实 现 Search engine ’s research and implement Search engine ’s research and implement 沈 晨 沈 晨 2007.6 2007.6毕 业 设 计 的 意 义 毕 业 设 计 的 意 义 互 联 网 的 最 大 优 点 就 是 拥 有 海 量 的 互 联 网 的 最 大 优 点 就 是 拥 有 海 量 的 信 息 , 而 且 每 8 个 月 就 翻 一 倍 , 现 信 息 , 而 且 每 8 个 月 就 翻 一 倍 , 现 今 的 网 页 数 量 已 经 超 过 1 0 亿 。 要 想 今 的 网 页 数 量 已 经 超 过 1 0 亿 。 要 想 在 这 浩 如 烟 海 的 网 络 世 界 中 快 速 、 在 这 浩 如 烟 海 的 网 络 世 界 中 快 速 、 有 效 地 搜 索 信 息 , 就 不 能 离 开 现 代 有 效 地 搜 索 信 息 , 就 不 能 离 开 现 代 信 息 获 取 技 术 ? ? 搜 索 引 擎 信 息 获 取 技 术 ? ? 搜 索 引 擎毕 业 设 计 的 两 个 目 标 毕 业 设 计 的 两 个 目 标 1. 研 究www 搜 索 引 擎 的 系 统 结 构 , 并 重 1. 研 究www 搜 索 引 擎 的 系 统 结 构 , 并 重 点 对 网 络 机 器 人 、 索 引 与 搜 索 程 序 以 点 对 网 络 机 器 人 、 索 引 与 搜 索 程 序 以 及 用 于 查 询 的Web 服 务 器 三 个 方 面 进 及 用 于 查 询 的Web 服 务 器 三 个 方 面 进 行 详 细 分 析 。 行 详 细 分 析 。 2. 在 这 些 研 究 的 基 础 上 利 用Java TM 相 2. 在 这 些 研 究 的 基 础 上 利 用Java TM 相 关 技 术 和 一 些 开 源 工 具 包 实 现 一 个 简 关 技 术 和 一 些 开 源 工 具 包 实 现 一 个 简 单 的 搜 索 引 擎 ? ? 新 闻 搜 索 引 擎 单 的 搜 索 引 擎 ? ? 新 闻 搜 索 引 擎搜 索 引 擎 的 系 统 结 构 搜 索 引 擎 的 系 统 结 构 网 络 机 器 人 、 索 引 与 搜 索 程 序 、Web 查 询 服 务 器 网 络 机 器 人 、 索 引 与 搜 索 程 序 、Web 查 询 服 务 器 索 索 终 终 引 引 端 端 数 数 用 用 据 据 户 户 库 库 We b 服务器 We b 服务器 网络机器人程序 网络机器人程序什 么 是 网 络 机 器 人 什 么 是 网 络 机 器 人? 是 一 种 功 能 强 大 的Web 扫 描 程 序 。 可 以 通 过 是 一 种 功 能 强 大 的Web 扫 描 程 序 。 可 以 通 过 超 连 接 来 扫 描 所 有Web 页 面 超 连 接 来 扫 描 所 有Web 页 面扫 描 页 面 流 程 如 下 图 所 示 :扫 描 页 面 流 程 如 下 图 所 示 : 扫描页面 加入等待队列 加入运行队列 加入等待队列 扫描页面 加入等待队列 加入运行队列 加入等待队列 发 发 现 现U UR RL L 扫 描 结 束 发 发 现 现U UR RL L 循 环 扫 描 结 束 循 环Jeff Heaton 的Bot 开 发 包 Jeff Heaton 的Bot 开 发 包开 放 源 代 码 的 第 三 方 开 发 包开 放 源 代 码 的 第 三 方 开 发 包用Java 实 现 的 网 络 机 器 人 类 库用Java 实 现 的 网 络 机 器 人 类 库提 供 了 包 括 : 解 析HTTP 、 接 受Form 、 分 析提 供 了 包 括 : 解 析HTTP 、 接 受Form 、 分 析 Cookie 、 实 现Spider 等 若 干 类 Cookie 、 实 现Spider 等 若 干 类参 考 网 址 :http://参 考 网 址 :http:// 络 机 器 人 的 具 体 实 现 网 络 机 器 人 的 具 体 实 现? 首 先 构 造Spider 类 , 并 实 现IspiderReportable 首 先 构 造Spider 类 , 并 实 现IspiderReportable 接 口 接 口然 后 通 过 覆 盖 回 调 函 数 来 处 理 网 页然 后 通 过 覆 盖 回 调 函 数 来 处 理 网 页 具 体 代 码 如 下 : 具 体 代 码 如 下 : Public void processPageHTTP htt

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档