第2讲网络爬行器课题.ppt

下载文档 降价啦

5
0
约1.49万字
约 29页
2016-11-27 发布于湖北
举报
保障服务

第2讲网络爬行器课题.ppt

An Introduction to Database Systems 第二讲网络爬行器网络爬行器的基本功能要求如何抓取网页抓取网页程序示例超链接特征与字符串处理提取超链接网页去重 URL列表的散列逻辑结构 URL散列函数 URL散列表物理存储结构设计网页去重代码示例 Trie树爬行策略宽度优先爬行代码示例如何控制爬行的层数层次控制代码示例网页正文提取标题、关键词及摘要正文的提取其他正文的提取提取的正文写入磁盘文件利用多线程抓取网页线程间的互斥问题网页正文的其他问题网站服务器与网络爬行器的交互 Robots.txt文件 Robots.txt文件（续）爬行周期的确定搜索引擎中的无效链接问题分布式爬行系统 1 教材介绍：比较经典的数据库教材第一版中国最早的数据库教材，为众多高校计算机专业采用 2. 萨老师介绍创建信息系，最早系主任中国的C J, Date 3 王老师介绍 4 数据库所介绍 1 教材介绍：比较经典的数据库教材第一版中国最早的数据库教材，为众多高校计算机专业采用 2. 萨老师介绍创建信息系，最早系主任中国的C J, Date 3 王老师介绍 4 数据库所介绍 1 教材介绍：比较经典的数据库教材第一版中国最早的数据库教材，为众多高校计算机专业采用 2. 萨老师介绍

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第2讲网络爬行器课题.ppt