- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《java爬虫程序相关(8-14周)》.ppt
自己动手写爬虫 爬虫物理分布简化架构图 主要任务 0.环境配置 1.网页连接 2.网页爬取 3网页存储 4网页分析(可选) 0 环境配置 1.JAVA IDE 环境,例如eclipse 2 爬虫相关jar包 htmlparser+ HttpClient ; 如何在eclipse中添加所需类 项目-》properities 爬虫运行 项目-》MyCrawler-》(右键) Run as application 1.网页连接(原理) 1.分析URL 2 根据URL抓取网页 3 URL集合获取 URL组成部分 ?传输协议是:http,类似的协议还包含:https,ftp, etc。 ? 主机或主机名: ?子域名是:video。 ?域名是: ?顶级域名(TLD)是:uk。uk 指的是国家顶级域名(ccTLD)。 ?二级域名(SLD)是:com.uk。 ?端口:80,这是 web 服务器的默认端口。其他的端口也是允许的,比如:web 服务器还可以听端口8000。当端口是80 时,很多人放空不写。 ?路径:/videoplay。路径通常指一个文件或 web 服务器上的一个位置 ?以上 URL 包含参数。参数名字是 docid,参数的值是-7246927612831078230。URLs 可以有很多参数。参数以问号(?)开始,以()隔开。 网站目录结构 网站的目录是指你建立网站时所创建的目录,目录结构则主要是指物理结构和逻辑结构这两种。 具体的说,网站物理结构指的是网站目录及所包含文件所存储的真实位置所表现出来的结构。 对于小型网站来说,所有网页都存在网站根目录下的扁平式结构,这种单一的目录的扁平结构对搜索引擎而言是最为理想的,因为只要一次访问即可遍历。 但是如果太多文件都放在根目录下的话,维护起来就显得相当麻烦;而对规模大一些的网站,往往需要二到三层甚至更多层级子目录才能保证文件内容页的正常存储,这种多层级目录也叫做树型结构。 网站目录结构 网站目录与URL 爬虫所需获取地址: 网站http://地址+网站结构 例如: 使用超级文本传输协议 HTTP ,提供超级文本信息服务的资源 。 例: . cn/channel/welcome.htm 其计算机域名为 。超级文本文件 ( 文件类型为 . html) 是在目录 /channel 下的 welcome.htm 。这是中国人民日报的一台计算机。 例: /talk/talk1.htm 其计算机域名为 。超级文本文件 ( 文件类型为 .html) 是在目录 /talk 下 的talk1.htm 。 通过指定的 URL 抓取网页内容(DownLoadFile.java) HttpClient httpClient = new HttpClient(); // 设置 Http 连接超时 5s httpClient.getHttpConnectionManager().getParams().setConnectionTimeout( 5000); /* 2.生成 GetMethod 对象并设置参数 */ GetMethod getMethod = new GetMethod(url); 获取URL过程(1) 在项目中引入 HttpClient.jar 包,就可以模拟 IE 来获取 // 创建一个客户端,类似 于 打开一个浏览 器 HttpClient httpclient=new HttpClient(); 获取URL过程(2) // 创建一个 get 方法,类似 于 在浏览器地址栏中输入一个地址 GetMethod getMethod=new GetMethod(); 获取URL过程(3) // 回车 ,获得响应状态码 int statusCode=httpclient.executeMethod(getMethod); // 查 看命中情况,可以获得的东西还有很多,比如 head 、 cookies 等 System.out.println(response= + getMethod.getResponseBodyAsString()); // 释放 getMethod.releaseConnection(); 提示: Apache 的 HTTP 客户端开源项目 —— HttpClient 包,处理URL解析,连接URL所指向的网站,显示连接结果【是否成功】 GetMethod getMethod = new GetMethod(url); // 设置 get 请求超时 5s getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT, 5000); // 设置请求重试处理 getMet
您可能关注的文档
- 《Java Web开发详解23》.pdf
- 《Java Web开发详解24》.pdf
- 《Java Web开发详解25》.pdf
- 《Java Web开发详解26》.pdf
- 《Java Web开发详解27》.pdf
- 《Java Web开发详解29》.pdf
- 《Java Web开发详解30》.pdf
- 《Java Web开发详解31》.pdf
- 《Java Web开发详解32》.pdf
- 《Java Web开发详解33》.pdf
- 【产品营销联盟PMA】2024年产品营销领导力状况报告.docx
- 数据作价出资入股的破局之道 (一):政策与难点解析.docx
- 房地产活动策划 -2025三八女神节春季手工团建主题活动推荐方案.docx
- 【欧盟标准组织】体验式网络智能(ENI)-基于人工智能代理的下一代网络切片研究.docx
- 【赛默飞】2024打造出海竞争力:中国创新药的国际生产供应战略白皮书.docx
- B2B电子商务入门的终极指南.docx
- 小白入门DeepSeek50个高阶提示词.docx
- 营销投放平台实操指南- 2025.docx
- 【里瑞通(Digital Realty)】2024您准备好使用数据和AI了吗?-赋能数据和 AI 就绪架构的有效方法白皮书.docx
- 中国酒业协会&腾讯营销洞察:2023年中国白酒行业消费白皮书.docx
文档评论(0)