2014网络爬虫原理与实战.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2014网络爬虫原理与实战

成都天和软件技术有限公司 网络爬虫原理与实战 王文成 成都天和软件技术有限公司 公司网址: 美女图片抓取实例 如何解析HTML 网络爬虫基本原理 3 网络爬虫基本原理 请求资源 Http Post/Get 解析HTML Jsoup 获取资源 图片.下个资源 下载资源 HttpClient 4 Java中的JQuery = JSoup getElementById(String id) 用id获得元素 getElementsByTag(String tag) 用标签获得元素 getElementsByClass(String className) 用class获得元素 getElementsByAttribute(String key) 用属性获得元素 用下面方法获得元素的数据: attr(String key) 获得元素的数据 attr(String key, String value) t设置元素数据 attributes() 获得所以属性 id(), className() classNames() 获得id class得值 text()获得文本值 text(String value) 设置文本值 html() 获取html html(String value)设置html outerHtml() 获得内部html tagname 操作tag ns|tag ns或tag #id 用id获得元素 .class 用class获得元素 [attribute] 属性获得元素 [^attr]: 以attr开头的属性 [attr=value] 属性值为value [attr^=value], [attr$=value], [attr*=value] [attr~=regex]正则 *:所以的标签 选择组合 el#id el和id定位 el.class e1和class定位 el[attr] e1和属性定位 ancestor child ancestor下面的child Jsoup官方网站 / 相关学习资料 /topic/1010581 /topic/1010582 /neverend06/blog/item/1e9acb25114cf3144d088df2.html 5 简单的测试 另存个简单的HTML做测试 File input = new File(/example.html); Document doc = Jsoup.parse(input, UTF-8); // 取得class=big的img对象 Elements elements = doc.select(img[class=big]); //取得class=big的img对象 elements = doc.getElementsByClass(big); // 取得ID= img001的对象 Element element = doc.getElementById(img001); 6 让我们来抓取一个帖子中的几张图片 /thread-35975-1-1.html 1.发送请求返回帖子HTML 2.分析帖子HTML中的图片链接 3.通过HttpClient取得图片输出流 4.保存输出流为图片 7 我想抓整个论坛的图片 /forum-3-1.html 1.发送请求返回论坛HTML 2.分析论坛HTML中的每个帖子 3.取得帖子链接,发送请求返回帖子HTML 5.分析帖子HTML中有哪些图片. 6.取得图片链接,通过HttpClient取得图片输出流 7.保存输出流为图片 8 如何提升抓取速度 1.多线程并发下载图片,你带宽够吗? 2.分析XML和下载图片分开处理。 公司网址: 成都天和软件技术有限公司

文档评论(0)

zw4044 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档