- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2014网络爬虫原理与实战
成都天和软件技术有限公司
网络爬虫原理与实战
王文成
成都天和软件技术有限公司
公司网址:
美女图片抓取实例
如何解析HTML
网络爬虫基本原理
3
网络爬虫基本原理
请求资源 Http Post/Get
解析HTML Jsoup
获取资源 图片.下个资源
下载资源 HttpClient
4
Java中的JQuery = JSoup
getElementById(String id) 用id获得元素
getElementsByTag(String tag) 用标签获得元素
getElementsByClass(String className) 用class获得元素
getElementsByAttribute(String key) 用属性获得元素
用下面方法获得元素的数据:
attr(String key) 获得元素的数据
attr(String key, String value) t设置元素数据
attributes() 获得所以属性
id(), className() classNames() 获得id class得值
text()获得文本值
text(String value) 设置文本值
html() 获取html
html(String value)设置html
outerHtml() 获得内部html
tagname 操作tag
ns|tag ns或tag
#id 用id获得元素
.class 用class获得元素
[attribute] 属性获得元素
[^attr]: 以attr开头的属性
[attr=value] 属性值为value
[attr^=value], [attr$=value], [attr*=value]
[attr~=regex]正则
*:所以的标签
选择组合
el#id el和id定位
el.class e1和class定位
el[attr] e1和属性定位
ancestor child ancestor下面的child
Jsoup官方网站 /
相关学习资料 /topic/1010581
/topic/1010582
/neverend06/blog/item/1e9acb25114cf3144d088df2.html
5
简单的测试
另存个简单的HTML做测试
File input = new File(/example.html);
Document doc = Jsoup.parse(input, UTF-8);
// 取得class=big的img对象
Elements elements = doc.select(img[class=big]);
//取得class=big的img对象
elements = doc.getElementsByClass(big);
// 取得ID= img001的对象
Element element = doc.getElementById(img001);
6
让我们来抓取一个帖子中的几张图片
/thread-35975-1-1.html
1.发送请求返回帖子HTML
2.分析帖子HTML中的图片链接
3.通过HttpClient取得图片输出流
4.保存输出流为图片
7
我想抓整个论坛的图片
/forum-3-1.html
1.发送请求返回论坛HTML
2.分析论坛HTML中的每个帖子
3.取得帖子链接,发送请求返回帖子HTML
5.分析帖子HTML中有哪些图片.
6.取得图片链接,通过HttpClient取得图片输出流
7.保存输出流为图片
8
如何提升抓取速度
1.多线程并发下载图片,你带宽够吗?
2.分析XML和下载图片分开处理。
公司网址:
成都天和软件技术有限公司
您可能关注的文档
最近下载
- 高中数学选择性必修第一册:2-3-3点到直线的距离公式-教学课件.pptx
- 初中语文 (部编版) 七年级上册(2024修订) 第六单元 24 寓言四则 穿井得一人课件(共19张PPT)).pptx VIP
- 信捷DS3-DS3E-DS3L系列伺服驱动器用户使用手册.pdf
- 2025年运动康复师 老年肌少症预防与康复习题库.doc VIP
- 老年康复习题.pdf VIP
- 大队委竞选个人简介范文.pdf VIP
- 营养指导员理论知识考试题(附答案).pdf VIP
- 2024年注册安全工程师真题答案与解析【法规】.docx VIP
- 个人简历表格下载word(最新).pdf VIP
- 老年康复习题.pdf VIP
文档评论(0)