《大数据架构与设计》课程报告讲解-基于前程无忧网站招聘信息的大数据分析.pptxVIP

下载本文档

5
0
约2.18千字
约 28页
2024-01-07 发布于浙江
举报
版权申诉

《大数据架构与设计》课程报告讲解-基于前程无忧网站招聘信息的大数据分析.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于前程无忧网站招聘信息的大数据分析

目录01数据来源03可视化介绍02数据处理

01数据来源

数据来源前程无忧(jobs)招聘网是中国领先的专业招聘网站，经第三方监测机构iResearch等调查，其连续多年市场占有率第一，先后多次被评为“中国最具影响力的人才招聘网站”。它提供了2020最新最全最准确的信息，为企业和求职者提供人才招聘、求职等在内的全方位人才资源服务。为分析互联网行业的职位信息，我们爬取了前程无忧网站上包括北京，上海，广州，深圳在内的20多个全国热门城市在互联网行业招聘岗位的相关信息，以了解互联网行业的就业市场情况，打造自身的职业规划路线。爬取网站：

数据来源环境：Pycharm，Python网页数据爬取：Scrapy-Redis分布式爬虫框架数据存储：MongoDB数据库爬取信息：爬取了职位名称，薪资，待遇，经验、学历以及具体要求和公司名称、类型、领域、规模等相关信息。

数据来源首先Slaver端从Master端（装有Redis的系统）拿任务（Request、url）进行数据抓取，Slaver抓取数据的同时，产生新任务的Request便提交给?Master?处理；Master端只有一个Redis数据库，负责将未处理的Request去重和任务分配，将处理后的Request加入待爬队列，并且存储爬取的数据框架介绍：

数据来源搭建了一个由两台电脑组成的集群，然后让每台电脑执行相同的程序，让其对前程无忧招聘网进行联合且分布的数据爬取。配置过程：安装scrapy-redis：pip3installscrapy-redis-i/pypi/simple/--trusted-host创建工程：scrapygenspidercrawlspiderNamecd工程配置过程：

数据来源创建并编写爬虫文件修改爬虫文件：导包：fromscrapy_redis.spidersimportRedisSpider将父类修改为?RedisSpider删除allowed_domains和start_urls添加redis_key=‘队列名称’:可被共享的调度器队列的名称，向这个队列中放入起始url修改settings配置指定管道：

数据来源指定调度器：指定redis数据库：启动爬虫程序：scrapycrawljob(爬虫名称)

数据来源运行下述程序向调度器的队列中放入起始url：爬取数据并存入到MongoDB数据库中

数据来源爬取的部分职位数据：

02数据处理

数据处理使用python的pandas库对爬取数据进行了处理。由于直接从MongoDB数据库中读取出所有数据较慢，因此先将所有的数据导出成了csv文件，再使用python对csv文件中的数据进行了处理。去除重复数据：根据职位名称，公司名称，工作地点，薪资，具体要求，学历，工作经验和所招人数对数据进行了去重处理。

数据处理

数据处理处理price(薪资)字段：price字段的格式不一致，有的是千/月，万/月，万/年，还有的是万以上以及元/天和空值。需要将其统一转换为千/月，并按薪资上限和薪资下限进行存储。对于含有-的price字段，对其进行分割，然后将左边的值存入薪资下限，右边的值存为薪资上限。对于元/天的price字段，则将其值*21转换为千/月，薪资上下限皆为该值。对于包含以上或以下的price字段，也将其薪资上下限设为相同的值。对于空值，则将薪资上下限都设为0

数据处理

数据处理处理workarea(工作地点)字段：将工作地点城市-区域根据-拆分成城市和区域。若只有城市，则将区域设为空值。

数据处理处理education(学历)字段：对于education字段中含有在校生/应届生的数据，添加一个字段isFresh(是否是校招)并将其设为‘是’,否则将其设为‘否’，并去除education中的‘在校生/应届生’

数据处理处理experience(经验)字段：将experience字段中的1年经验和2年经验统一成1-2年。

03可视化介绍

可视化介绍Pyecharts是一个用于生成Echarts图表的类库。Echarts是百度开源的一个JS库，主要用于数据可视化。Pyecharts实际上就是Echarts与Python的对接。Pyecharts的优点：简洁的API设计，使用如丝滑般流畅，支持链式调用囊括了30+种常见图表，应有尽有支持主流Notebook环境，JupyterNotebook和Jupy