项目3就业岗位数据采集和存储.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop大数据 平台构建与应用;;任务3.1 使用网络爬虫采集岗位招聘数据;任务3.1 ;知识准备;任务实施 (1)解析岗位列表页源代码;这是在WebMagic框架中的PageProcessor组件中定制实现的,首先要做的是设置抓取的基本配置,包括编码、抓取间隔、重试次数,代码如下: private Site site = Site.me().setRetryTimes(3).setSleepTime(10).setCharset(gbk); 这里选择重试次数为3次,抓取间隔为10毫秒,编码根据为51job网页源代码可以查看得到,如下所示: html head meta http-equiv=X-UA-Compatible content=IE=edge,chrome=1 meta http-equiv=Content-Type content=text/html; charset=gbk link rel=icon href=/favicon.ico type=image/x-icon/ title【云计算招聘,求职】-前程无忧/title 该招聘网站的编码为gbk。;接下来,判断当前分析的页面是否为岗位列表页。不难发现,列表页的URL中都含有字符段,可以通过简单的if语句判断: if (page.getUrl().toString().contains()) 下面分析岗位信息页链接的HTML源代码,并用Xpath语法解析出,添加至抓取队列。 检查某个链接源代码的方法,在岗位列表中右击一项,在弹出的下拉菜单中选择“Inspect”命令,如图3-3所示。;右击并选择检查(Inspect)后,出现了该链接的HTML源码,如图3-4所示。 ;可以发现,所需要的URL地址是一个p标签下的唯一的超链接,该标签的class名为t1。同理,这个岗位列表页下的所有岗位信息页的URL都有着相同的格式。因此可以使用Xpath全部识别,并添加至抓取队列,代码实现如下: select = page.getHtml().xpath(//p[@class=t1]); urls = select.links().all(); page.addTargetRequests(urls); 添加后续分页的链接也是如上一样的方法,在此省去分析HTML源码的截图,直接贴上代码: select = page.getHtml().xpath(//div[@class=dw_page]); urls = select.links().all(); ;这里需要注意的是,要防止添加空白搜索结果页的链接,不然将会把整个 51job的岗位全都抓取下来。尽管按照定制的抓取逻辑,这种意外不会出现, 但还是添加了踢出队列的保护机制,代码如下: IteratorString it = urls.iterator(); while(it.hasNext()){ String x = it.next(); if(x.equals(/list/000000,000000,0000,00,9,99,%2520,2,1.html?lang=cstype=postchannel=0000workyear=99cotype=99degreefrom=99jobterm=99companysize=99providesalary=99lonlat=0%2C0radius=-1ord_field=0confirmdate=9fromType=dibiaoid=0address=line=specialarea=00from=welfare=)){ it.remove(); } } page.addTargetRequests(urls);;(2)解析岗位信息页源代码 如图3-5所示,需要抓取岗位信息页上用红框标注出来的信息。方法与上一步中的类似,也是通过分析HTML源码,再利用Xpath语法或者正则表达式去定位相关内容. ;具体的代码如下: else if (page.getUrl().toString().startsWith(/)) { page.putField(url, page.getUrl().toString()); // 岗位名称 page.putField(job, page.getHtml().xpath(//div[@class=cn]/h1/text()).toString()); // 发布日期 page.putField(createtime, page.getHtml().regex(em class=\i

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档