主题爬虫 SY1106722 姚光超 运行结果 爬虫设置 流程 初始化种子和关键词 抓取 有抓取网页? 分析 大于阈值? 获取链接 加入队列 丢弃 结束 是 是 否 否 初始化种子和主题关键词 种子 选择一个和主题相关的种子网页,作为爬取的初始网页 主题 设置关于主题的关键词,然后在种子网页中爬取获取关键词的词频 主题相关度分析 URL队列 为了避免盲目查找无穷的网页,同时也是为了加快抓取速度,我们需要维护多个url队列: 等待优先队列 结果队列 不相关队列 (错误队列) URL流向图 等待队列 获取优先级最大的网页进行抓取 大于阈值? 获取网页链接 在完成队列中? 在抛弃队列中? 抛弃队列 是 否 是 完成队列 否 否 程序实现—检查网页 在检查网页的时候,我们需要忽略某些类型的网页: if (s.endsWith(.zip) || s.endsWith(.gz) || s.endsWith(.exe) || s.endsWith(.exe) || s.endsWith(.jpg) || s.endsWith(.png) || s.endsWith(.tar) || s.endsWith(.chm) || s.endsWith(.iso) || s.endsWith(.gif) || s.endsWith(.csv) || s.endsWith(.pdf)
原创力文档

文档评论(0)