java实现爬取指定网站的数据.docxVIP

  • 4
  • 0
  • 约7.25千字
  • 约 7页
  • 2017-07-09 发布于河南
  • 举报
java实现爬取指定网站的数据

这个类是用来解析网站的内容? 重点是:div#pagediv#contentdiv#localdiv#recommendullia;? 这里用用firefox的firebug组件查看网页的代码结构,不同的网页路径也不一样。? Java代码?? package?zy.crawl.hupu;?? ?? import?java.io.IOException;?? ?? import?mon.*;?? ?? import?java.util.ArrayList;?? import?java.util.List;?? ?? import?org.apache.http.HttpEntity;?? import?org.apache.http.HttpHost;?? import?org.apache.http.HttpResponse;?? import?org.apache.http.HttpStatus;?? import?org.apache.http.client.HttpClient;?? import?org.apache.http.client.methods.HttpGet;?? import?org.apache.http.conn.params.ConnRoutePNames;?? import?org.apache.http.impl.client.DefaultHttpClient;?? import?org.apache.http.params.CoreConnectionPNames;?? import?org.apache.http.util.EntityUtils;?? import?org.jsoup.Jsoup;?? import?org.jsoup.nodes.Document;?? import?org.jsoup.nodes.Element;?? import?org.jsoup.select.Elements;?? ?? public?class?CrawlHupu?? {?? ????private?ListNewsInfo?newsList?=?new?ArrayList();//用来存储爬取的信息对象?? ?????? ????public?String?GetHtml(String?url)?//还方法是设置网络链接,是固定的用法?? ????{?? ????????String?html?=?null;?? ????????HttpClient?httpClient?=?new?DefaultHttpClient();?? ????????//set?proxy?,because?of?nsn?? //??????HttpHost?proxy?=?new?HttpHost(1,?3128);?? //??????httpClient.getParams().setParameter(ConnRoutePNames.DEFAULT_PROXY,?proxy);?? ?????????? ????????//configuration?timeout?? ????????httpClient.getParams().setParameter(CoreConnectionPNames.CONNECTION_TIMEOUT,?20000);?? ?????????? ????????HttpGet?httpGet?=?new?HttpGet(url);?? ????????try?? ????????{?? ????????????HttpResponse?httpResponse?=?httpClient.execute(httpGet);?? ????????????int?resStatu?=?httpResponse.getStatusLine().getStatusCode();?? ????????????if(resStatu?==?HttpStatus.SC_OK)?? ????????????{?? ????????????????HttpEntity?entity?=?httpResponse.getEntity();?? ????????????????if(entity?!=?null)?? ????????????????{?? ????????????????????html?=?EntityUtils.toString(entity);?? ????????????????}?? ????????????}?? ?????????????? ????????}?? ????????catch?(Exception?e)?? ????????{?? ??????

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档