基于爬虫技术的人才需求数据抓取与分析毕业设计论文.pdf

基于爬虫技术的人才需求数据抓取与分析毕业设计论文.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 当前,伴随着信息技术的飞速发展,个人求职、社会招聘及人才 机构研究对人才的需求日益精准化,而精准化的背后需要数据基础和 数据技术的支撑。本设计通过Python3技术对人才数据进行采集、存 储、清洗、分析、可视化 研究当前人才市场的需求及属性,形成可 复制的解决方案,提供有价值的数据分析报告。 关键词:Python;人才需求;分析 Document generated by Print2Flash () 目录 1 需求分析 1 2 关键技术2 2. 1数据采集2 2.2数据清洗4 2.3数据分析5 2.4数据可视化5 3 系统设计6 3. 1系统架构6 3.2开发环境的选择与安装配置 7 3.3数据采集设计8 3.4数据清洗设计18 3.5数据分析设计19 3. 6 可视化设计22 总结 28 致谢 29 参考文献 30 Document generated by Print2Flash () 1需求分析 当下是一个信息时代,信息是一种资源,也是一种手段,掌握了 可靠、及时的信息就掌握了致胜的先机。信息建立在准确的数据和正 确的分析方法上。互联网上有巨大的数据资源,如何快速获取互联网 上的数据并进行分析得到有价值的信息,即是本设计探索的方向。 为清楚的掌握当前人才需求形势,设计高可用的分析方案,开发 出相应的软件,应用合理的分析方法与流程并转化为程序,使能够快 速的获取数据、清洗数据、分析数据、数据可视化,并融合成有价值 的数据分析报告,提供有力的参考。 当前我国主流的招聘网站有智联招聘、前程无忧、58同城、猎 聘网 ,其中智联招聘具有服务范围广、数据量大、网站建设佳 特 点,较具有权威性和代表性。本设计即以智联招聘为例。 使用网络爬虫技术有条件的抓取智联招聘网站数据,并按格式保 存,高效精准的清洗数据和分析数据,合理、美观、直观、突出重点 的数据可视化。 Document generated by Print2Flash () 2关键技术 2.1 数据采集 经过对对象网站的调查、分析,综合考虑技术、需求、开发时间、 效率 因素,拟使用以下Python工具模块:Requests、Json、Math、 Re、 Csv、 Pickle、 Hashlib、 0s Dateti e Lx l Log、 Tkintero Requests是Python体系中一个用于网络访问的模块,类似的有 Urllib, Urllib2, Httplib, Httplib2, ,它们基本都提供相似的 功能,那为什么Requests模块就能够脱引而出呢?可以打开它的官 网看一下,是一个 “人类”用的Http模块。那么,它究竟怎样的人 性化呢?相信如果你之前用过Urllib之类的模块的话,对比下就会 发现它确实很人性化。它是用Python语言基于Urllib编写的,采用 的是 Apache2 Licensed 开源协议的 HTTP 库,Requests 它会比 urllib 更加方便,可以节约我们大量的工作。 Json 是 JavaScript Object Notation 的缩写,意思是 JavaScript 对象表示法。Json是纯文本格式,是独立于语言和平台的。生成和 解析相对于XML而言要简单。读写的速度更快。 Math是一个Python的数学工具,拥有丰富的开发好的数学函数, 在实际开发中需要使用到某些数据函数,使用Math模块是一个绝佳 选择。 Re是正则表达式,提供了类似于Perl的正则表达式匹配操作。 要匹配的模式和字符串可以是Unicode字符串以及8位字符串。使用 方式简单,效率高。 2 Document generated

文档评论(0)

李天佑 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档