- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop大数据
平台构建与应用;;任务3.1 使用网络爬虫采集岗位招聘数据;任务3.1 ;知识准备;任务实施(1)解析岗位列表页源代码;这是在WebMagic框架中的PageProcessor组件中定制实现的,首先要做的是设置抓取的基本配置,包括编码、抓取间隔、重试次数,代码如下:
private Site site = Site.me().setRetryTimes(3).setSleepTime(10).setCharset(gbk);
这里选择重试次数为3次,抓取间隔为10毫秒,编码根据为51job网页源代码可以查看得到,如下所示:
html
head
meta http-equiv=X-UA-Compatible content=IE=edge,chrome=1
meta http-equiv=Content-Type content=text/html; charset=gbk
link rel=icon href=/favicon.ico type=image/x-icon/
title【云计算招聘,求职】-前程无忧/title
该招聘网站的编码为gbk。;接下来,判断当前分析的页面是否为岗位列表页。不难发现,列表页的URL中都含有字符段,可以通过简单的if语句判断:
if (page.getUrl().toString().contains())
下面分析岗位信息页链接的HTML源代码,并用Xpath语法解析出,添加至抓取队列。
检查某个链接源代码的方法,在岗位列表中右击一项,在弹出的下拉菜单中选择“Inspect”命令,如图3-3所示。;右击并选择检查(Inspect)后,出现了该链接的HTML源码,如图3-4所示。
;可以发现,所需要的URL地址是一个p标签下的唯一的超链接,该标签的class名为t1。同理,这个岗位列表页下的所有岗位信息页的URL都有着相同的格式。因此可以使用Xpath全部识别,并添加至抓取队列,代码实现如下:
select = page.getHtml().xpath(//p[@class=t1]);
urls = select.links().all();
page.addTargetRequests(urls);
添加后续分页的链接也是如上一样的方法,在此省去分析HTML源码的截图,直接贴上代码:
select = page.getHtml().xpath(//div[@class=dw_page]);
urls = select.links().all();
;这里需要注意的是,要防止添加空白搜索结果页的链接,不然将会把整个
51job的岗位全都抓取下来。尽管按照定制的抓取逻辑,这种意外不会出现,
但还是添加了踢出队列的保护机制,代码如下:
IteratorString it = urls.iterator();
while(it.hasNext()){
String x = it.next();
if(x.equals(/list/000000,000000,0000,00,9,99,%2520,2,1.html?lang=cstype=postchannel=0000workyear=99cotype=99degreefrom=99jobterm=99companysize=99providesalary=99lonlat=0%2C0radius=-1ord_field=0confirmdate=9fromType=dibiaoid=0address=line=specialarea=00from=welfare=)){
it.remove();
}
}
page.addTargetRequests(urls);;(2)解析岗位信息页源代码
如图3-5所示,需要抓取岗位信息页上用红框标注出来的信息。方法与上一步中的类似,也是通过分析HTML源码,再利用Xpath语法或者正则表达式去定位相关内容.
;具体的代码如下:
else if (page.getUrl().toString().startsWith(/)) {
page.putField(url, page.getUrl().toString());
// 岗位名称
page.putField(job, page.getHtml().xpath(//div[@class=cn]/h1/text()).toString());
// 发布日期
page.putField(createtime, page.getHtml().regex(em class=\i
文档评论(0)