爬虫笔记相关课堂.pdfVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

知识回顾:

1)概念

Javascript语言(弱语言,只在网页使用,为了安全)java(面向对象,强语言)

Css两种方式:style属性;linkbase.css

Js两种方式:scriptlanguage=”javascript”js语言/script

xxx.js

Json本质字符串,Stringa=“[{“name”:”[{},{}]”,”age”,18},{}]”;

成为日常系统交换数据的通用方式,安卓,httpclient+json

Jsonp本质字符串,show([{},{}])javascript函数,解决跨域问题

ObjectMapperJacksonjson专门用于pojo和json字符串直接转换,从json字符串中挑

出我们关心的属性的值

ObjectMapperMAPPER=newObjectMapper();

//从json字符串中获取某个key的value?

JsonNodenode=MAPPER.readTree(json);

//注意node中的结构,

数组:node.get(0).get(“p”).asText();

直接是单个元素:node.get(“p”).asText();

2)爬虫

a)Httpclient模拟发起一个http请求,携带参数,获取返回值

b)Jsoup真正爬虫,对页面数据有一套解析方法,利用css,样式表+jQuery提出选择

i.选择器3种情况

divid=”orderId”class=”ordercssdetail”/div

1.直接使用html规范的:div

2.使用id,#orderId

3.使用class,.ordercss

4..select(.ordercss).select(.detail)特殊情况

抓取一个title整个过程?

Stringurl=“sina/1289392.htm”;

Connectioncn=Jsoup.connect(url);//找到要爬取的

Docmentdoc=cn.get();//获取到爬取的页面

Elementsels=doc.select(“h1”);//获取了h1的集合,集合只有一个元素

Elementele=els.get(0);//只获取第一个

for(Elemente:els){//获取多张

e.attr(“src”);

}

ele.text();//title文字

简洁方式:

Jsoup.connect(url).get().select(“h1”).get(0).text();

3)怎么在eclipse中调试代码(最多)

断点:breakpoint

在debug模式程序会自动进入到断点。

弹出的框是提示我们要进入新的debug的窗口环境,设置为yes。

以后不会弹出。

断点调试3个按钮,也支持快捷键

F5进入到子程序中,调用一个函数,进入函数

F6执行一行(用的最多)

F7跳出当前的执行,返回上级调用

Funa(){

Funb();

}

断点方便我们观察每个值,

时间开发中,大多数错误99%,变量的值不对;

通过断点观察这个值对不对!

4)抓取jd它的价格和描述怎么来的?

典型的二次提交

pdtk=pduid=38393pdpinmpinmpdbp=0

skuIds=J_4483112extource=item-pc

https://协议,http://,安全,防止

,3.cn,二级

文档评论(0)

honglajiao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档