数据挖掘以及搜引擎经典pptchap4.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘以及搜引擎经典pptchap4

Crawling the Web Outline Basic WWW Technologies Web的基本概念 Basic Crawling 基本的爬取算法 URI:Uniform Resource Identifier -Uniform Resource Identifiers URL: Uniform Resource Locators URN: Uniform Resource Names Every resource available on the Web has an address that may be encoded by a URL URIs typically consist of three pieces: The naming scheme of the mechanism used to access the resource. (HTTP, FTP) The name of the machine hosting the resource The name of the resource itself, given as a path URL,URN与URI的关系 URL,URN是URI的子集。 URI是以某种统一的(标准化的)方式标识资源的简单字符串。 URI一般由三部分组成: 1. 访问资源的命名机制。 2. 存放资源的主机名。 3. 资源自身的名称,由路径表示。 URI Example /TR There is a document available via the HTTP protocol Residing on the machines hosting Accessible via the path /TR Hypertext Transfer Protocol (HTTP) A connection-oriented protocol (TCP) used to carry WWW traffic between a browser and a server One of the transport layer protocol supported by Internet HTTP communication is established via a TCP connection and server port 80 GET Method in HTTP HTML Hyperlink a href=relations/alumnialumni/a A link is a connection from one Web resource to another It has two ends, called anchors, and a direction Starts at the source anchor and points to the destination anchor, which may be any Web resource (e.g., an image, a video clip, a sound bite, a program, an HTML document) Anchor test (锚文本) Anchor text is the hyperlinked words on a web the words you click on when you click a link. Here‘s an example, reciprocal links, in which “reciprocal links” is the anchor text. 锚文本主要是为访问者提供指向网页内容的说明。 Outline Basic WWW Technologies Web的基本概念 Basic Crawling 基本的爬取算法 Web是一个有向图 Completeness Observations Completeness is not guaranteed 假设从一个page出发能到达web上的任何一个page. 实际情况并不一定这样 How to make it better: more seeds, more diverse seeds, port scanner maybe help 常用算法 Depth First Search Width First Search Depth-First Search Depth-First Search PROCEDURE SPIDER(G, {SEEDS}) Initialize COLLECTION big file of URLpairs//结果存储 Initia

文档评论(0)

jixujianchi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档