- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于网络爬虫的招聘网站数据分析
【摘要】 随着互联网的高速发展,人才招聘已经发生了翻天覆地的变化,人们的难题已经不再是如何获取信息了。人们可以通过互联网在网上搜索大量的招聘信息,而如此大量的信息需要耗费用户不少时间。
本文通过Scrapy框架爬取前程无忧招聘网站的数据并存储在Mysql 数据库中,同时在爬取时对数据进行初步的清洗,也在爬取后进行数据的二次清洗,最后对网站中的职位进行分析,从工作地点、工作经验要求、工作薪资、学历水平、岗位数量等方面进行分析。将分析结果以柱形图、饼图、词云图、条形图等图形进行展示。让招聘者提前感受到招聘岗位的相关数据是否符合自己预期,进而提升求职者找到心仪工作岗位的效率,在求职的过程中有一个良好的体验。
【关键词】 Scrapy 招聘 数据分析 可视化
引言
临近毕业之际,不少应届生面临着要升学还是出社会工作,在职的工作人员也会考虑到转行业的问题,求职者也希望在这浩瀚如烟的网络招聘市场可以找到一份适合自己的工作,为了能够深入了解我国现如今的招聘市场生态,并分析我国如今的各省份和市场上现有岗位的在薪资等方面的差异。现对前程无忧网进行数据上的整合分析,让求职者在找工作时可以找到自己喜欢的城市和工作同时也提高了效率,减少时间成本。同时可以了解到现如今市
场的热门行业,也可为高中毕业生、在读大学生等对自己未来感到迷茫、不知从事何种职业的人提供小小建议。
第1章 绪论
1.1 项目的背景与意义
现如今,随着社会的高速发展,1969年诞生的互联网已经渗透到人们生活的方方面面,同时也给人们的生活带来了巨大的便利。网络技术在各个行业、各个领域都有举足轻重的地位。回想过往,企业发布招聘信息的路径过于单一,都是通过贴公告、发传单的方式进行,时效性低,求职人员找不到适合的工作,用人单位找不到的人才,造成损失。而且大量纸质的印刷会造成浪费不利于环保,影响市容市貌。而招聘网站的出现恰恰改变了这一局面,网站一定程度的反应了人才市场的需求,同时也明确写出了公司对于人才各方面的需求,同时也将该公司的一些基本信息放在网上,供求职人员参考。对比以往,现如今的网络招聘平台有着海量的信息,传统的求职方式已不再适合求职人员,难以找到合适的工作。而通过对网站职位进行数据分析有利于求职人员找到心仪的工作,大大减少求职人员的时间成本,也有助于提高效率。如何让求职人员快速的找到自己理想的工作职位,有必要通过图表的形式进行展示,让求职人员更直观的、更精确的获取关键的信息。
1.2 项目的目标
首先,使用基于Python编程语言开发的Scrapy爬虫框架,在前程无忧网上对职位的相关信息进行爬取,在爬取数据的过程中需要解决相关网站反爬机制、IP封禁、自动翻页爬取数据等一系列问题,确保所需数据能够正确且高效的爬取,并使用MySQL数据库创建相应的数据库和数据表,将爬取的数据存入到数据库中。
其次,需要对爬取下来的数据进行数据格式一致性检查、缺失值和无效值的处理等一系列的数据清洗操作,数据清洗操作分为两个阶段,第一阶段在数据爬取时进行,第二阶段在数据存入数据库后再进行,其最终目的都是为了得到可供分析的完整数据。
最终,从以下三个方面对数据进行分析:一、对全国的各个城市职位的薪资、学历、岗位数量、工作经验、公司福利、公司性质进行一个总体分析,得出现如今市场对于学历、工作经验等方面的要求。二、对网站中各个职位的薪资、学历、岗位数量、工作经验、公司福利、公司性质进行一个分析,得出现如今这个职位在哪个城市岗位最
多、薪资和工作经验等方面的关系。三、对全国各个省份的薪资、学历、岗位数量、工作经验、公司福利进行一个分析,得出现如今该省份的学历、工作经验等方面的关系。
第2章 需求分析
2.1 需求分析
2.1.1 项目需求
本文基于国内招聘网站——前程无忧,对我国(省份和现有岗位提供的职位信息进行分析,具体分析工作主要从以下三个方面展开:
1.对全国的各个城市职位的薪资、学历、岗位数量、工作经验、公司福利进行一个总体分析,得出现如今市场对于学历、工作经验等方面的要求。
2.对网站中各个职位的薪资、学历、岗位数量、工作经验、公司福利、公司性质进行一个分析,得出现如今这个职位在哪个城市岗位最多,薪资和工作经验等方面的关系。
3.对全国各个省份的薪资、学历、岗位数量、工作经验、公司福利等进行一个分析,得出现如今该省份的学历、工作经验等方面的关系。
2.1.2 软件环境需求
项目从设计到部署都在个人电脑上进行,所需要的软件环境如表2-1所示。
表2-1 软件环境
类别
名称
计算机系统
Windows10
项目运行环境
Python3.7版本
数据库
MySQL数据库8.0.21
数据库可视化工具
Navicate
数
您可能关注的文档
- 基于能量约束和历史信息的容迟网络路由算法研究.docx
- 基于社会网络的组织决策行为建模方法研究.docx
- 基于生命周期理论的融资战略问题及对策 ——以河钢股份为例.docx
- 基于生物学学科核心素养下高中生物实验教学探究.docx
- 基于声源定位的辅助防护微系统设计.docx
- 基于时间序列的肇庆市城市化研究和预测.docx
- 基于时间序列模型的河南省第三产业就业人数组合预测.docx
- 基于市场法的房地产价值评估研究以天和小区为例.docx
- 基于事故树的列车行车事故分析.docx
- 基于视觉检测的鱼类分级机机构设计.docx
- 基于网络爬虫的招聘信息可视化分析系统.docx
- 基于网络时代网红带货现象的研究—以”抖音”直播为例.docx
- 基于网络文本的忻州市旅游形象感知研究.docx
- 基于网络文本分析的旅游目的地的形象感知研究——以五台山景区为例.docx
- 基于网络文本分析的旅游演艺节目游客形象感知研究 ——以阳朔《印象 刘三姐》为例.docx
- 基于网络文本分析的山西旅游感知形象和投射形象对比研究.docx
- 基于网络文本分析的太行山大峡谷旅游形象感知研究.docx
- 基于网络文本分析的重庆红岩革命纪念馆游客体验感知研究.docx
- 基于网络药理学探究痛泻要方治疗溃疡性结肠炎的作用机制.docx
- 基于网络药理学探讨半夏泻心汤 对胃溃疡的作用机制.docx
文档评论(0)