搜索引擎工作流程.docxVIP

  • 35
  • 0
  • 约2.61千字
  • 约 6页
  • 2020-12-15 发布于山东
  • 举报
一、网 搜集 搜索引擎是通 爬虫去搜集互 网中的网 ,放入数据 ,但是 不可能是用 提交 的 候才去 抓取,而是 先就搜集好一批网 , 可以把 WEB上的网 集合看成是一个有向 , 搜集 程从 定起始 URL 集合 S 开始,沿着 些网 中的 接,按照先深或先 某种策略遍 ,不停的从 S 中移除 URL,下 相 的网 ,解析出网 中的超 接 URL,看是否已 ,或者有未 的那些 URL加入集合 S。我 里可以是定期搜集,增量搜集,或者是用 自主提交的方式 行爬取。并且 批网 行 。 种 ,是 了能及 网 的新特征,搜集新的网 ,改 的网 ,或者已 不存在的网 。 二、 理 理主要包括四个方面:关 的提取、 像网 或 网 的消除、 接分析和网 重要程度的 算 关 的提取 作 理 段的一个基本任 , 就是要提取出网 源文件的内容部分包括的关 。 于中文来 , 就是根据一个 典,用一个所 的“切 件”,从网 文字中切除 典所包含的 来,在那之后,一 篇网 主要是由一 来代表, p={a,b,c, ??d}. 一般来 ,我 会得到很多 ,同一个 可能在一篇网 中出 多次。然后我 要去掉”停用 “,例如”的,在,是” 一 的 。再加以 些 的 (TF) 和文档 率 (DF) 之 的 算 ,从而指示出 在一篇文档中的相

文档评论(0)

1亿VIP精品文档

相关文档