- 10
- 0
- 约小于1千字
- 约 12页
- 2017-06-18 发布于湖北
- 举报
姚光超-主题爬虫概要
主题爬虫 SY1106722 姚光超 运行结果 爬虫设置 流程 初始化种子和关键词 抓取 有抓取网页? 分析 大于阈值? 获取链接 加入队列 丢弃 结束 是 是 否 否 初始化种子和主题关键词 种子 选择一个和主题相关的种子网页,作为爬取的初始网页 主题 设置关于主题的关键词,然后在种子网页中爬取获取关键词的词频 主题相关度分析 URL队列 为了避免盲目查找无穷的网页,同时也是为了加快抓取速度,我们需要维护多个url队列: 等待优先队列 结果队列 不相关队列 (错误队列) URL流向图 等待队列 获取优先级最大的网页进行抓取 大于阈值? 获取网页链接 在完成队列中? 在抛弃队列中? 抛弃队列 是 否 是 完成队列 否 否 程序实现—检查网页 在检查网页的时候,我们需要忽略某些类型的网页: if (s.endsWith(.zip) || s.endsWith(.gz) || s.endsWith(.exe) || s.endsWith(.exe) || s.endsWith(.jpg) || s.endsWith(.png) || s.endsWith(.tar) || s.endsWith(.chm) || s.endsWith(.iso) || s.endsWith(.gif) || s.endsWith(.csv) || s.endsWith(.pdf)
您可能关注的文档
最近下载
- 南京工程学院大物试卷.doc VIP
- 工伤认定知识培训(48P).pptx VIP
- 城市地下空间土地使用权的价格评估.PDF VIP
- (东莞自主招生考试)2024-2025松莞物理试题.pdf VIP
- CN108359966A-一种半置换半还原型化学镀金液及其应用方法-公开.pdf VIP
- 现代分离方法与技术--9.3化学修饰电极分离富集法(1).ppt VIP
- 商业房地产楼层效用系数指引.docx VIP
- PDATR29(2012年)清洁验证中英对照版.pdf VIP
- 高职劳动教育(金华职业技术学院)超星尔雅学习通网课章节测试答案.doc VIP
- YGWS系列水冷螺杆式冷水机组.pdf VIP
原创力文档

文档评论(0)