搜索引擎工作流程.docxVIP

下载本文档

35
0
约2.61千字
约 6页
2020-12-15 发布于山东
举报

搜索引擎工作流程.docx

一、网搜集搜索引擎是通爬虫去搜集互网中的网，放入数据，但是不可能是用提交的候才去抓取，而是先就搜集好一批网，可以把 WEB上的网集合看成是一个有向，搜集程从定起始 URL 集合 S 开始，沿着些网中的接，按照先深或先某种策略遍，不停的从 S 中移除 URL，下相的网，解析出网中的超接 URL，看是否已，或者有未的那些 URL加入集合 S。我里可以是定期搜集，增量搜集，或者是用自主提交的方式行爬取。并且批网行。种，是了能及网的新特征，搜集新的网，改的网，或者已不存在的网。二、理理主要包括四个方面：关的提取、像网或网的消除、接分析和网重要程度的算关的提取作理段的一个基本任，就是要提取出网源文件的内容部分包括的关。于中文来，就是根据一个典，用一个所的“切件”，从网文字中切除典所包含的来，在那之后，一篇网主要是由一来代表， p={a,b,c, ??d}. 一般来，我会得到很多，同一个可能在一篇网中出多次。然后我要去掉”停用 “，例如”的，在，是” 一的。再加以些的 (TF) 和文档率 (DF) 之的算，从而指示出在一篇文档中的相

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

搜索引擎工作流程.docxVIP

搜索引擎工作流程.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档