- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络爬虫实验课资料
实验一:网络爬虫 实验说明 实验一学时数:4学时(10月10日、10月17日) 课堂上主要讲实验原理,课后请大家补充时间编码 实验结果:10月24日前提交实验报告、源代码与可执行程序打包文件到邮箱:1551739226@ 报告格式不限,但至少应包含实验原理说明、关键代码截图与解释、实验结果截图与解释、实验心得 严格按时间提交,过时不阅 网络爬虫 Crawler ,即Spider(网络爬虫),其定义有广义和狭义之分。狭义上指遵循标准的 http 协议,利用超链接和 Web 文档检索方法遍历万维网的软件程序;而广义的定义则是能遵循 http 协议,检索 Web 文档的软件都称之为网络爬虫。 网络爬虫是一个功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。 爬虫基本原理 网络爬虫是通过网页的链接地址来寻找网页,从一个或若干初始网页的URL开始(通常是某网站首页),遍历 Web 空间,读取网页的内容,不断从一个站点移动到另一个站点,自动建立索引。在抓取网页的过程中,找到在网页中的其他链接地址,对 HTML 文件进行解析,取出其页面中的子链接,并加入到网页数据库中,不断从当前页面上抽取新的URL放入队列,这样一直循环下去,直到把这个网站所有的网页都抓取完,满足系统的一定停止条件。 工作流程 通用网络爬虫是从一个或若干个初始网页的上的 URL 开始,获得初始网页上的 URL 列表,在抓取网页过程中,不断从当前页面上抽取新的 URL 放入待爬行队列,直到满足系统的停止条件。 爬虫的爬取策略:广度优先、深度优先、启发式方法等 例子说明 主界面 新建工程 通过新建工程来完成对初始url的设置以及爬取下来的网页需要保存的本地目录位置。 网页结果 以天涯为例,抓取下来的网页以txt的形式保存,并且里面同时保存有该网页上所有文字内容。 实验要求 基本要求(必做) 1.正确编译、运行给定的爬虫程序 2.选取网易新闻、天涯论坛、新浪微博,对抓取性能进行比较(如每分钟抓取网页数、图片数等、抓取失败数等指标,以表格和曲线的形式呈现),并给出分析 进阶要求 1.修改源码,实现只抓取图片(或视频) 2.修改源码,实现只抓取层数5的网页
您可能关注的文档
最近下载
- 市场营销原理(第13版) 科特勒 课件 中文版.ppt
- 陕西省全省性社会团体章程示范文本(陕西省2022版).pdf VIP
- 2025学年高一下学期期中考试物理试卷 Word版含答案 .pdf VIP
- 2023高考语文新课标I卷现代文阅读II《给儿子》小说精读及试题详解.docx
- 2025年许昌电气职业学院单招职业适应性测试题库往年题考.docx VIP
- 寿盒(骨灰盒)供应及售后服务方案.pdf VIP
- 适老化全场景技术规范 第2部分:既有居住建筑适老化改造技术标准 .pdf VIP
- 生态系统多样性及保护.pptx VIP
- (高清版)ZT 0331-2020 地热资源评价方法及估算规程.pdf VIP
- T∕CBMCA 057.1-2024 适老化全场景技术规范 第1部分:居住建筑适老化基本要求.pdf
文档评论(0)