JAVA开发一个简单的爬虫的思路2.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
在思路文档1中,讲到用get方式取网站的信息,本篇文档讲如何登录验证,发送post方式请求网页。 首先,先找一个不错的分析工具,一个ie插件。 HttpWatchPro-v6.014 可以在右面的网站下载到,到上也可以搜索到。 安装后,会在ie的工具栏中显示该插件 这个插件的功能就是录制一段http协议请求与返回参数,这样,我们可以分析,每次点网页链接,传递了哪些数据,返回了哪些数据,从而进行分析,以辅助我们理解,网络爬虫。 下面,我们以比较流行的为例,演示工具的使用,我们录一段登录的http过程。 上面为开心网,下面为打开的httpwatch工具。工具左上的三个按钮,录制,停止,清除。 我们点红色的,开始录制。登录完成后,停止。 登录过程中的信息都被记录下来,并用Save,保存到本地的文件 我们可以静态分析上面这个文件,用开始菜单中安装好的非插件版的httpwatch,打开这个文件 我们看到,第二行,Method为post,下面都是get,看一下,第二行 可以看到请求的地址,传递的参数,图中涂掉的部分是我的登录密码。所以哪天,可以在自己电脑上,开着httpwatch,让朋友登录某个网页,密码你就有了(开个玩笑,最好不要这样玩,影响友谊)。 其他的,如添加好友,种地,房子,停车等,大家有空自已分析。 下面,我把我自己写的一些代码片段分享一下。 下面的程序用到 Amons.httpclient 3.1 Amons.log 相关包。 package cn.tsoft.plugins.kaixin.util; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.http.Header; import org.apache.http.HeaderElement; import org.apache.http.HttpResponse; import org.apache.http.NameValuePair; import org.apache.http.client.CookieStore; import org.apache.http.client.HttpClient; import org.apache.http.client.ResponseHandler; import org.apache.http.client.entity.UrlEncodedFormEntity; import org.apache.http.client.methods.HttpGet; import org.apache.http.client.methods.HttpPost; import tocol.ClientContext; import org.apache.http.impl.client.BasicResponseHandler; import org.apache.http.impl.client.DefaultHttpClient; import org.apache.http.message.BasicNameValuePair; import tocol.BasicHttpContext; import tocol.HTTP; import tocol.HttpContext; import mon.Constants; /** * 网站链接处理程序 * * @coder me * @author co.td 2009-3-13 */ public class WebProcessUtil { // 登录用户名常量 public static final String EMAIL = email; // 登陆的密码参数常量 public static final String PASSWORD = password; // 登陆的URL参数常量 public static final String URL = url; // 首页的URL public static final String INDEXURL = /; // 登陆的URL public static final String LOGINURL = /login/login.php; // 照片的URL public static final String ALBUMLISTURL = /photo/albumlist.php; // 日记的URL public static final String DIARYURL = /diary/; // 争车位的URL publ

文档评论(0)

zhuliyan1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档