数据挖掘以及索引擎经典pptchap4.pptVIP

  • 2
  • 0
  • 约6.84千字
  • 约 34页
  • 2018-10-15 发布于江苏
  • 举报
数据挖掘以及索引擎经典pptchap4

Crawling the Web Outline Basic WWW Technologies Web的基本概念 Basic Crawling 基本的爬取算法 URI:Uniform Resource Identifier -Uniform Resource Identifiers URL: Uniform Resource Locators URN: Uniform Resource Names Every resource available on the Web has an address that may be encoded by a URL URIs typically consist of three pieces: The naming scheme of the mechanism used to access the resource. (HTTP, FTP) The name of the machine hosting the resource The name of the resource itself, given as a path URL,URN与URI的关系 URL,URN是URI的子集。 URI是以某种统一的(标准化的)方式标识资源的简单字符串。 URI一般由三部分组成: 1. 访问资源的命名机制。 2. 存放资源的主机名。

文档评论(0)

1亿VIP精品文档

相关文档