大数据背景下数据分析类岗位的招聘特征挖掘.docxVIP

大数据背景下数据分析类岗位的招聘特征挖掘.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
? ? 大数据背景下数据分析类岗位的招聘特征挖掘 ? ? 韦婷婷,方宏宇,宋世领,骆威,张建桃,熊俊涛 (华南农业大学数学与信息学院,广州510642) 0 引言 随着大数据应用于各行各业,数据分析相关岗位的需求也越来越大。根据数联寻英发布的《大数据人才报告》显示,国内近几年大数据人才需求量巨大,众多大型企业的招聘名单里半数以上岗位都从属于数据分析类[1]。但是,目前学校这方面的人才培养,还满足不了社会的需要。作为人才培养的摇篮,高校应根据大数据发展对人才的需求特征,进行有针对性的培养计划。此外,目前针对数据分析岗位需求特征的研究比较少,仅有的少数研究对特征的分类则采用人工分类的方式,缺乏客观性[2],也难以为求职者提供有效的相关信息。为此,本文从各大主流招聘网站上爬取招聘信息,通过相关的数据挖掘技术实现了以下特征分析:基于TF-IDF 算法的各福利待遇权重计算;基于Kmeans 算法的数据分析岗位需求特征聚类分析;基于统计学知识的工作经验薪资统计图、需求特征词云图、数据分析岗位全国热力图。本文的研究成果将有助于高校相关专业有针对性地培养适应市场需求的人才,并为求职者的能力构建及就业选择提供参考依据。 1 数据获取与研究方法 1.1 数据获取 本文调研了国内多家招聘网站,综合考虑了数据抓取难度、数据量以及网站权威性等方面,最终选择拉勾网、智联招聘、猎聘网、前程无忧四个招聘网站作为本实验的数据源,部分示例数据如图1 所示。 图1 部分抓取数据 1.2 研究思路与方法 本文根据抓取数据各字段不同特点选取不同的分析方法。本文的研究思路主要分为以下六个步骤,如图2 所示。第一,选取数据源并实现招聘数据的抓取。第二,从抓取的网络文本集中选取结构化字段,直接进行词频统计。第三,实现以成段文本形式出现的福利待遇和职位描述字段的数据预处理。第四,统计福利待遇各Key词频并计算其TF-IDF 值。第五,统计职位描述各Key词频并实现职位描述字段各Key的K-means 聚类分析。第六,以可视化的方式展示上述各实验结果并加以分析。 图2 实验流程设计 2 实验设计与实现 2.1 数据预处理 本文从各个数据字段中选取城市、薪资、工作经验、学历要求、福利待遇、职位描述字段进行数据预处理[3],具体流程如图3 所示。为防止专业短语在分词中被分解,本文抽取了相关的大量Key短语添加到词库中,提高分析的准确性。 图3 数据预处理步骤 2.2 福利待遇TF-IDF权重计算 本文选择TF-IDF 算法计算某Key对一个文件系统的重要程度[4]。其中TF 值代表词频,通常会做归一化处理。对于某一Keyti来说其TF 值计算如公式(1)所示。 在上式中ni,j是某关键字词在文件集合中的出现频次,而分母nk,j则是在文件集合中进行中文分词后,所有词出现次数的总和[5]。IDF 值代表反文档频率,其计算公式如公式(2)所示。 其中|D|表示文本系统中文件的总数;|{j:ti∈di}|代表包含Key的文件数目[6]。最后再计算该Key的TF-IDF 值:tfidfi,j=tfi,j×idfi。 本文将福利待遇字段内容预处理后作为词频统计的输入,再根据词频统计结果计算各Key的TF-IDF值并选择权重值前30 的Key分析。此处将每个网站福利待遇字段内容存为一个文件,四个网站的福利待遇文件构成文件系统。 2.3 职位描述K-means聚类 根据相似性原理科学分类[7],K-means 算法较人工分类更具客观性。本文利用K-means 算法对数据分析岗位需求词典进行聚类分析,由于在实现K-means 算法之前需要将文本进行向量化处理,选取了Word2Vec模型实现文本向量化,再根据生成各Key对应的向量值进行聚类。 K-means 算法以各Key对应向量间的距离作为判断其相似性的标准,本文采用欧氏距离计算向量间的距离,其计算公式如公式(3)所示。 在K-means 的计算过程要通过多次迭代动态地确定分类中心Centerk,每次聚类结束后要调整所有数据对象的mean 值并确定下次分类的中心。定义第K 个类的类簇中心Centerk的方程如公式(4)所示。 其中Ck代表第k 个类簇,|Ck|代表第k 个类簇中所有数据对象的总数。K-means 算法停止迭代的方式有两种,一种为设定迭代次数T,当达到设定迭代次数时停止迭代。另一种是采用误差平方和准则函数,此数学模型如公式(5)所示。 其中K 的值代表的是类簇个数,此方法首先要设定δ值再计算,直到ΔJ<δ时终止迭代,此时得到的聚类结果为最终结果。最后根据聚类分析结果将职位描述高频Key进行分类。 3 实验结果与分析 3.1 可视化结果分析 (1)数据分析岗位全国热力图 本文选取“城市”(工作地点)字段制作了数据分析岗位全国热力

文档评论(0)

布丁文库 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体 重庆微铭汇信息技术有限公司
IP属地江苏
统一社会信用代码/组织机构代码
91500108305191485W

1亿VIP精品文档

相关文档