- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于前程无忧网站招聘信息的大数据分析
目录01数据来源03可视化介绍02数据处理
01数据来源
数据来源前程无忧(jobs)招聘网是中国领先的专业招聘网站,经第三方监测机构iResearch等调查,其连续多年市场占有率第一,先后多次被评为“中国最具影响力的人才招聘网站”。它提供了2020最新最全最准确的信息,为企业和求职者提供人才招聘、求职等在内的全方位人才资源服务。为分析互联网行业的职位信息,我们爬取了前程无忧网站上包括北京,上海,广州,深圳在内的20多个全国热门城市在互联网行业招聘岗位的相关信息,以了解互联网行业的就业市场情况,打造自身的职业规划路线。爬取网站:
数据来源环境:Pycharm,Python网页数据爬取:Scrapy-Redis分布式爬虫框架数据存储:MongoDB数据库爬取信息:爬取了职位名称,薪资,待遇,经验、学历以及具体要求和公司名称、类型、领域、规模等相关信息。
数据来源首先Slaver端从Master端(装有Redis的系统)拿任务(Request、url)进行数据抓取,Slaver抓取数据的同时,产生新任务的Request便提交给?Master?处理;Master端只有一个Redis数据库,负责将未处理的Request去重和任务分配,将处理后的Request加入待爬队列,并且存储爬取的数据框架介绍:
数据来源搭建了一个由两台电脑组成的集群,然后让每台电脑执行相同的程序,让其对前程无忧招聘网进行联合且分布的数据爬取。配置过程:安装scrapy-redis:pip3installscrapy-redis-i/pypi/simple/--trusted-host创建工程:scrapygenspidercrawlspiderNamecd工程配置过程:
数据来源创建并编写爬虫文件修改爬虫文件:导包:fromscrapy_redis.spidersimportRedisSpider将父类修改为?RedisSpider删除allowed_domains和start_urls添加redis_key=‘队列名称’:可被共享的调度器队列的名称,向这个队列中放入起始url修改settings配置指定管道:
数据来源指定调度器:指定redis数据库:启动爬虫程序:scrapycrawljob(爬虫名称)
数据来源运行下述程序向调度器的队列中放入起始url:爬取数据并存入到MongoDB数据库中
数据来源爬取的部分职位数据:
02数据处理
数据处理使用python的pandas库对爬取数据进行了处理。由于直接从MongoDB数据库中读取出所有数据较慢,因此先将所有的数据导出成了csv文件,再使用python对csv文件中的数据进行了处理。去除重复数据:根据职位名称,公司名称,工作地点,薪资,具体要求,学历,工作经验和所招人数对数据进行了去重处理。
数据处理
数据处理处理price(薪资)字段:price字段的格式不一致,有的是千/月,万/月,万/年,还有的是万以上以及元/天和空值。需要将其统一转换为千/月,并按薪资上限和薪资下限进行存储。对于含有-的price字段,对其进行分割,然后将左边的值存入薪资下限,右边的值存为薪资上限。对于元/天的price字段,则将其值*21转换为千/月,薪资上下限皆为该值。对于包含以上或以下的price字段,也将其薪资上下限设为相同的值。对于空值,则将薪资上下限都设为0
数据处理
数据处理处理workarea(工作地点)字段:将工作地点城市-区域根据-拆分成城市和区域。若只有城市,则将区域设为空值。
数据处理处理education(学历)字段:对于education字段中含有在校生/应届生的数据,添加一个字段isFresh(是否是校招)并将其设为‘是’,否则将其设为‘否’,并去除education中的‘在校生/应届生’
数据处理处理experience(经验)字段:将experience字段中的1年经验和2年经验统一成1-2年。
03可视化介绍
可视化介绍Pyecharts是一个用于生成Echarts图表的类库。Echarts是百度开源的一个JS库,主要用于数据可视化。Pyecharts实际上就是Echarts与Python的对接。Pyecharts的优点:简洁的API设计,使用如丝滑般流畅,支持链式调用囊括了30+种常见图表,应有尽有支持主流Notebook环境,JupyterNotebook和Jupy
您可能关注的文档
- Hadoop平台(Hadoop概述+HDFS)介绍课件.pdf
- Hadoop平台(YARN+MapReduce)介绍课件.pdf
- Spark系统介绍课件.pdf
- 大数据概述课件.pdf
- 大数据算法课件.pdf
- 大数据应用课件_可自行拓展.pdf
- 分布式数据库Hbase课件.pdf
- 流计算和图计算课件.pdf
- 《大数据架构与设计》实践报告-地震数据分析与预测研究.docx
- 《大数据架构与设计》实践报告-电影信息智能推荐平台的构建.docx
- 《大数据架构与设计》课程报告讲解-基于双注意力机制RNN的载客收益预测算法.pptx
- 《大数据架构与设计》课程报告讲解-基于招聘网站的离线统计及实时分析系统.pptx
- 《大数据架构与设计》课程报告讲解-金融贷款中企业多指标信用评估.pptx
- 《大数据架构与设计》课程报告讲解-社交平台谣言检测.pptx
- 《大数据架构与设计》课程报告讲解-体育大数据背景下的NBA球员分析.pptx
- 《大数据架构与设计》课程报告讲解-涡扇剩余使用寿命预测及状态判定.pptx
- 《大数据架构与设计》课程报告讲解-英雄联盟大数据分析.pptx
- 《大数据架构与设计》课程报告讲解-知乎大数据之青年群体择偶观分析.pptx
- 3D打印创新创业企划书.pptx
- 3D打印创新创业企划书2.pptx
网络工程师持证人
本人已从事浙江省工程咨询5年,对浙江省内工程信息非常熟悉,可获取新建工程相关联系人、设计院、业主等关键信息。另外从事楼宇自控专业已10年,考取了一建二建等资格证书,有关考试方面的问题(考试心得、方法、学习资料等)都欢饮来咨询交流。
文档评论(0)