项目3就业岗位数据采集和存储.pptx

下载文档 降价啦

12
0
约9.27千字
约 57页
2019-09-05 发布于山东
举报
版权申诉
保障服务

项目3就业岗位数据采集和存储.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop大数据平台构建与应用;;任务3.1 使用网络爬虫采集岗位招聘数据;任务3.1 ;知识准备;任务实施（1）解析岗位列表页源代码;这是在WebMagic框架中的PageProcessor组件中定制实现的，首先要做的是设置抓取的基本配置，包括编码、抓取间隔、重试次数，代码如下： private Site site = Site.me().setRetryTimes(3).setSleepTime(10).setCharset(gbk); 这里选择重试次数为3次，抓取间隔为10毫秒，编码根据为51job网页源代码可以查看得到，如下所示： html head meta http-equiv=X-UA-Compatible content=IE=edge,chrome=1 meta http-equiv=Content-Type content=text/html; charset=gbk link rel=icon href=/favicon.ico type=image/x-icon/ title【云计算招聘，求职】-前程无忧/title 该招聘网站的编码为gbk。;接下来，判断当前分析的页面是否为岗位列表页。不难发现，列表页的URL中都含有字符段，可以通过简单的if语句判断： if (page.getUrl().toString().contains()) 下面分析岗位信息页链接的HTML源代码，并用Xpath语法解析出，添加至抓取队列。检查某个链接源代码的方法，在岗位列表中右击一项，在弹出的下拉菜单中选择“Inspect”命令，如图3-3所示。;右击并选择检查（Inspect）后，出现了该链接的HTML源码，如图3-4所示。 ;可以发现，所需要的URL地址是一个p标签下的唯一的超链接，该标签的class名为t1。同理，这个岗位列表页下的所有岗位信息页的URL都有着相同的格式。因此可以使用Xpath全部识别，并添加至抓取队列，代码实现如下： select = page.getHtml().xpath(//p[@class=t1]); urls = select.links().all(); page.addTargetRequests(urls); 添加后续分页的链接也是如上一样的方法，在此省去分析HTML源码的截图，直接贴上代码： select = page.getHtml().xpath(//div[@class=dw_page]); urls = select.links().all(); ;这里需要注意的是，要防止添加空白搜索结果页的链接，不然将会把整个 51job的岗位全都抓取下来。尽管按照定制的抓取逻辑，这种意外不会出现，但还是添加了踢出队列的保护机制，代码如下： IteratorString it = urls.iterator(); while(it.hasNext()){ String x = it.next(); if(x.equals(/list/000000,000000,0000,00,9,99,%2520,2,1.html?lang=cstype=postchannel=0000workyear=99cotype=99degreefrom=99jobterm=99companysize=99providesalary=99lonlat=0%2C0radius=-1ord_field=0confirmdate=9fromType=dibiaoid=0address=line=specialarea=00from=welfare=)){ it.remove(); } } page.addTargetRequests(urls);;（2）解析岗位信息页源代码如图3-5所示，需要抓取岗位信息页上用红框标注出来的信息。方法与上一步中的类似，也是通过分析HTML源码，再利用Xpath语法或者正则表达式去定位相关内容. ;具体的代码如下： else if (page.getUrl().toString().startsWith(/)) { page.putField(url, page.getUrl().toString()); // 岗位名称 page.putField(job, page.getHtml().xpath(//div[@class=cn]/h1/text()).toString()); // 发布日期 page.putField(createtime, page.getHtml().regex(em class=\i