- 10
- 0
- 约小于1千字
- 约 4页
- 2016-11-23 发布于北京
- 举报
2014信息检索实验报告
信息检索实验报告
姓名:黄唯静
学号:2011210564
指导老师:李波
专业:计算机科学与技术
一、实验目标:
掌握网络爬虫的工作原理以及实现方法
熟悉网页抓取的过程
3)熟悉MFC编写的网络爬虫代码,并进行调试运行
实验内容:
掌握网络爬虫工作原理的基础上对给定部分代码进行修改,实现不同功能并对抓取网页的原理以及性能进行分析。
三、网络爬虫原理:
网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。
四、网络爬虫工作流程:
选取种子UR
您可能关注的文档
最近下载
- 02S-404 防水套管 标准图集.pdf VIP
- 绵阳市安县2025-2026学年第二学期六年级语文期中考试卷部编版含答案.docx VIP
- 江西省省情省策100-题精选.pdf VIP
- 临床医生年终工作总结8篇.docx VIP
- 数学北师大版八年级下册分式方程.ppt VIP
- 绵阳市安县2025-2026学年第二学期二年级语文期中考试卷(部编版含答案).docx VIP
- 新解读《GB_T 32439 - 2015给水用钢丝网增强聚乙烯复合管道》最新解读.docx VIP
- (公式自动计算)20kV及以下配电网预算书(电子表格版).xls VIP
- 山东省烟台市2025年中考物理真题及答案.docx VIP
- 2024年山东省烟台市中考物理真题卷及答案解析.pdf VIP
原创力文档

文档评论(0)