《java爬虫程序相关(8-14周)》.ppt

下载文档 降价啦

6
0
约6.57千字
约 38页
2015-10-05 发布于河南
举报
版权申诉
保障服务

《java爬虫程序相关(8-14周)》.ppt

1、本文档共38页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

自己动手写爬虫爬虫物理分布简化架构图主要任务 0.环境配置 1.网页连接 2.网页爬取 3网页存储 4网页分析（可选） 0 环境配置 1.JAVA IDE 环境，例如eclipse 2 爬虫相关jar包 htmlparser+ HttpClient ；如何在eclipse中添加所需类项目-》properities 爬虫运行项目-》MyCrawler-》（右键） Run as application 1.网页连接(原理) 1.分析URL 2 根据URL抓取网页 3 URL集合获取 URL组成部分 ?传输协议是：http，类似的协议还包含：https，ftp， etc。 ? 主机或主机名： ?子域名是：video。 ?域名是： ?顶级域名（TLD）是：uk。uk 指的是国家顶级域名（ccTLD）。 ?二级域名（SLD）是：com.uk。 ?端口：80，这是 web 服务器的默认端口。其他的端口也是允许的，比如：web 服务器还可以听端口8000。当端口是80 时，很多人放空不写。 ?路径：/videoplay。路径通常指一个文件或 web 服务器上的一个位置 ?以上 URL 包含参数。参数名字是 docid，参数的值是-7246927612831078230。URLs 可以有很多参数。参数以问号（?）开始，以（）隔开。网站目录结构网站的目录是指你建立网站时所创建的目录，目录结构则主要是指物理结构和逻辑结构这两种。　　具体的说，网站物理结构指的是网站目录及所包含文件所存储的真实位置所表现出来的结构。对于小型网站来说，所有网页都存在网站根目录下的扁平式结构，这种单一的目录的扁平结构对搜索引擎而言是最为理想的，因为只要一次访问即可遍历。但是如果太多文件都放在根目录下的话，维护起来就显得相当麻烦；而对规模大一些的网站，往往需要二到三层甚至更多层级子目录才能保证文件内容页的正常存储，这种多层级目录也叫做树型结构。网站目录结构网站目录与URL 爬虫所需获取地址：网站http://地址+网站结构例如：使用超级文本传输协议 HTTP ，提供超级文本信息服务的资源。例： . cn/channel/welcome.htm 其计算机域名为。超级文本文件 ( 文件类型为 . html) 是在目录 /channel 下的 welcome.htm 。这是中国人民日报的一台计算机。例： /talk/talk1.htm 其计算机域名为。超级文本文件 ( 文件类型为 .html) 是在目录 /talk 下的talk1.htm 。通过指定的 URL 抓取网页内容（DownLoadFile.java） HttpClient httpClient = new HttpClient(); // 设置 Http 连接超时 5s httpClient.getHttpConnectionManager().getParams().setConnectionTimeout( 5000); /* 2.生成 GetMethod 对象并设置参数 */ GetMethod getMethod = new GetMethod(url); 获取URL过程（1）在项目中引入 HttpClient.jar 包，就可以模拟 IE 来获取 // 创建一个客户端，类似于打开一个浏览器 HttpClient httpclient=new HttpClient(); 获取URL过程（2） // 创建一个 get 方法，类似于在浏览器地址栏中输入一个地址 GetMethod getMethod=new GetMethod(); 获取URL过程（3） // 回车，获得响应状态码 int statusCode=httpclient.executeMethod(getMethod); // 查看命中情况，可以获得的东西还有很多，比如 head 、 cookies 等 System.out.println(response= + getMethod.getResponseBodyAsString()); // 释放 getMethod.releaseConnection(); 提示： Apache 的 HTTP 客户端开源项目 —— HttpClient 包，处理URL解析，连接URL所指向的网站，显示连接结果【是否成功】 GetMethod getMethod = new GetMethod(url); // 设置 get 请求超时 5s getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT, 5000); // 设置请求重试处理 getMet