- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
当前,伴随着信息技术的飞速发展,个人求职、社会招聘及人才
机构研究对人才的需求日益精准化,而精准化的背后需要数据基础和
数据技术的支撑。本设计通过Python3技术对人才数据进行采集、存
储、清洗、分析、可视化 研究当前人才市场的需求及属性,形成可
复制的解决方案,提供有价值的数据分析报告。
关键词:Python;人才需求;分析
Document generated by Print2Flash ()
目录
1 需求分析 1
2 关键技术2
2. 1数据采集2
2.2数据清洗4
2.3数据分析5
2.4数据可视化5
3 系统设计6
3. 1系统架构6
3.2开发环境的选择与安装配置 7
3.3数据采集设计8
3.4数据清洗设计18
3.5数据分析设计19
3. 6 可视化设计22
总结 28
致谢 29
参考文献 30
Document generated by Print2Flash ()
1需求分析
当下是一个信息时代,信息是一种资源,也是一种手段,掌握了
可靠、及时的信息就掌握了致胜的先机。信息建立在准确的数据和正
确的分析方法上。互联网上有巨大的数据资源,如何快速获取互联网
上的数据并进行分析得到有价值的信息,即是本设计探索的方向。
为清楚的掌握当前人才需求形势,设计高可用的分析方案,开发
出相应的软件,应用合理的分析方法与流程并转化为程序,使能够快
速的获取数据、清洗数据、分析数据、数据可视化,并融合成有价值
的数据分析报告,提供有力的参考。
当前我国主流的招聘网站有智联招聘、前程无忧、58同城、猎
聘网 ,其中智联招聘具有服务范围广、数据量大、网站建设佳 特
点,较具有权威性和代表性。本设计即以智联招聘为例。
使用网络爬虫技术有条件的抓取智联招聘网站数据,并按格式保
存,高效精准的清洗数据和分析数据,合理、美观、直观、突出重点
的数据可视化。
Document generated by Print2Flash ()
2关键技术
2.1 数据采集
经过对对象网站的调查、分析,综合考虑技术、需求、开发时间、
效率 因素,拟使用以下Python工具模块:Requests、Json、Math、
Re、 Csv、 Pickle、 Hashlib、 0s Dateti e Lx l Log、 Tkintero
Requests是Python体系中一个用于网络访问的模块,类似的有
Urllib, Urllib2, Httplib, Httplib2, ,它们基本都提供相似的
功能,那为什么Requests模块就能够脱引而出呢?可以打开它的官
网看一下,是一个 “人类”用的Http模块。那么,它究竟怎样的人
性化呢?相信如果你之前用过Urllib之类的模块的话,对比下就会
发现它确实很人性化。它是用Python语言基于Urllib编写的,采用
的是 Apache2 Licensed 开源协议的 HTTP 库,Requests 它会比 urllib
更加方便,可以节约我们大量的工作。
Json 是 JavaScript Object Notation 的缩写,意思是 JavaScript
对象表示法。Json是纯文本格式,是独立于语言和平台的。生成和
解析相对于XML而言要简单。读写的速度更快。
Math是一个Python的数学工具,拥有丰富的开发好的数学函数,
在实际开发中需要使用到某些数据函数,使用Math模块是一个绝佳
选择。
Re是正则表达式,提供了类似于Perl的正则表达式匹配操作。
要匹配的模式和字符串可以是Unicode字符串以及8位字符串。使用
方式简单,效率高。
2
Document generated
文档评论(0)