An Introduction to Database Systems 第二讲 网络爬行器 网络爬行器的基本功能要求 如何抓取网页 抓取网页程序示例 超链接特征与字符串处理 提取超链接 网页去重 URL列表的散列逻辑结构 URL散列函数 URL散列表物理存储结构设计 网页去重代码示例 Trie树 爬行策略 宽度优先爬行代码示例 如何控制爬行的层数 层次控制代码示例 网页正文提取 标题、关键词及摘要正文的提取 其他正文的提取 提取的正文写入磁盘文件 利用多线程抓取网页 线程间的互斥问题 网页正文的其他问题 网站服务器与网络爬行器的交互 Robots.txt文件 Robots.txt文件(续) 爬行周期的确定 搜索引擎中的无效链接问题 分布式爬行系统 1 教材介绍: 比较经典的数据库教材 第一版中国最早的数据库教材,为众多高校计算机专业采用 2. 萨老师介绍 创建信息系,最早系主任 中国的C J, Date 3 王老师介绍 4 数据库所介绍 1 教材介绍: 比较经典的数据库教材 第一版中国最早的数据库教材,为众多高校计算机专业采用 2. 萨老师介绍 创建信息系,最早系主任 中国的C J, Date 3 王老师介绍 4 数据库所介绍 1 教材介绍: 比较经典的数据库教材 第一版中国最早的数据库教材,为众多高校计算机专业采用 2. 萨老师介绍
原创力文档

文档评论(0)