- 4
- 0
- 约7.25千字
- 约 7页
- 2017-07-09 发布于河南
- 举报
java实现爬取指定网站的数据
这个类是用来解析网站的内容?重点是:div#pagediv#contentdiv#localdiv#recommendullia;?这里用用firefox的firebug组件查看网页的代码结构,不同的网页路径也不一样。?
Java代码??
package?zy.crawl.hupu;??
??
import?java.io.IOException;??
??
import?mon.*;??
??
import?java.util.ArrayList;??
import?java.util.List;??
??
import?org.apache.http.HttpEntity;??
import?org.apache.http.HttpHost;??
import?org.apache.http.HttpResponse;??
import?org.apache.http.HttpStatus;??
import?org.apache.http.client.HttpClient;??
import?org.apache.http.client.methods.HttpGet;??
import?org.apache.http.conn.params.ConnRoutePNames;??
import?org.apache.http.impl.client.DefaultHttpClient;??
import?org.apache.http.params.CoreConnectionPNames;??
import?org.apache.http.util.EntityUtils;??
import?org.jsoup.Jsoup;??
import?org.jsoup.nodes.Document;??
import?org.jsoup.nodes.Element;??
import?org.jsoup.select.Elements;??
??
public?class?CrawlHupu??
{??
????private?ListNewsInfo?newsList?=?new?ArrayList();//用来存储爬取的信息对象??
??????
????public?String?GetHtml(String?url)?//还方法是设置网络链接,是固定的用法??
????{??
????????String?html?=?null;??
????????HttpClient?httpClient?=?new?DefaultHttpClient();??
????????//set?proxy?,because?of?nsn??
//??????HttpHost?proxy?=?new?HttpHost(1,?3128);??
//??????httpClient.getParams().setParameter(ConnRoutePNames.DEFAULT_PROXY,?proxy);??
??????????
????????//configuration?timeout??
????????httpClient.getParams().setParameter(CoreConnectionPNames.CONNECTION_TIMEOUT,?20000);??
??????????
????????HttpGet?httpGet?=?new?HttpGet(url);??
????????try??
????????{??
????????????HttpResponse?httpResponse?=?httpClient.execute(httpGet);??
????????????int?resStatu?=?httpResponse.getStatusLine().getStatusCode();??
????????????if(resStatu?==?HttpStatus.SC_OK)??
????????????{??
????????????????HttpEntity?entity?=?httpResponse.getEntity();??
????????????????if(entity?!=?null)??
????????????????{??
????????????????????html?=?EntityUtils.toString(entity);??
????????????????}??
????????????}??
??????????????
????????}??
????????catch?(Exception?e)??
????????{??
??????
您可能关注的文档
- 2015年中考英语模拟试题10与答案.doc
- 2015年6月辽宁省专业技术人员潜能激励与创造力开发教程试题与答案.doc
- 2015年6月英语六级真题与答案(第一套).doc
- hao123桌面版程序使用介绍.doc
- 2015年主管护师考试真题与答案解析《专业实践能力》网友版.doc
- Guitar Pro简单教程(图解).doc
- Hibernate discriminator-value用法.docx
- hibernate HQL查询.docx
- 2015年职称英语真题与答案解析.doc
- 2015年考研英语一试题与答案.doc
- GB 14287.2-2026电气火灾监控系统 第2部分:剩余电流式电气火灾监控探测器.pdf
- 《GB 14287.2-2026电气火灾监控系统 第2部分:剩余电流式电气火灾监控探测器》.pdf
- GB 7956.20-2026消防车 第20部分:特种底盘消防车.pdf
- 《GB 7956.20-2026消防车 第20部分:特种底盘消防车》.pdf
- 中国国家标准 GB 7956.20-2026消防车 第20部分:特种底盘消防车.pdf
- 《GB/T 22576.1-2026医学实验室 质量和能力的要求 第1部分:通用要求》.pdf
- 中国国家标准 GB/T 22576.1-2026医学实验室 质量和能力的要求 第1部分:通用要求.pdf
- GB/T 22576.1-2026医学实验室 质量和能力的要求 第1部分:通用要求.pdf
- GB/T 28029.14-2026轨道交通电子设备 列车通信网络(TCN) 第2-8部分:以太网一致性测试.pdf
- 《GB/T 28029.14-2026轨道交通电子设备 列车通信网络(TCN) 第2-8部分:以太网一致性测试》.pdf
原创力文档

文档评论(0)