基于大数据岗位需求的文本聚类研究.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
研究论文 基于大数据岗位需求的文本聚类研究* 刘睿伦 叶文豪 高瑞卿 唐梦嘉 王东波 ( 南京农业大学信息科学技术学院 南京 210095) 摘要: 【目的 】对大数据工作岗位需求文本进行挖掘, 帮助大数据企业更精准地定位所需人才。【方法 】抽取招 聘网站上2017 年第一季度关于“大数据”的工作岗位信息, 使用TF-IDF 并结合Word2Vec 和K-means 实现基于语 义的聚类, 并利用轮廓系数方法获取最佳聚类效果。【结果 】利用抽取获得的实体对文本向量进行表达能够达到 良好的聚类效果, 最终将岗位需求文本分为工作能力要求、学历要求以及工作经验要求三类。【局限 】各网站信 息发布的格式不统一, 数据清洗不够全面, 对聚类效果产生影响; 挖掘获取的招聘信息数据量不充足, 使 Word2Vec 模型训练集较小, 训练结果还有提升空间。【结论 】根据聚类结果发现大数据岗位对学历要求不高、 企业偏好有经验的但也不排除无经验的求职者、企业对职位素养要求要高于计算机技术要求等特点。 关键词: 大数据岗位 Word2Vec K-means 轮廓系数 分类号: G351 DOI : 10.11925/infotech.2096-3467.2017.0817 问卷的题目广度和深度受限于问卷设计者的认知程 1 引 言 度, 难以挖掘更深层次的无法直观获取的内容; Kim 目前国内对大数据人才的需求呈现爆发式的增 等[3]使用内容分析方法对 1 240 条数据科学家招聘信 长。据国家信息中心发布的《中国大数据发展报告 息进行分析, 总结企业对数据科学家一职的专业以及 [1] (2017) 》 指出, 由于大数据技术在我国由兴起到广泛 学历有着较高的要求, 主要的专业领域涉及统计学、 应用的历时较短, 人才培养速度较缓, 大数据从业者 机器学习及分析。但由于数据量较小, 使得结果不具 技能和经验不足。并且大数据技术入门门槛较高, 加 有可靠性。在国内, 夏火松等[4]对比了CNKI 收录的大 上部分从业者对大数据的盲目跟从, 最终造成企业大 数据相关的硕博士论文以及招聘网站硕博士学历的相 数据岗位缺口扩大以及人才与岗位需求不对口的现象, 关招聘信息, 利用文献计量与内容分析的方法, 从多 成为制约我国大数据产业发展的关键障碍之一。 个角度对比分析了我国大数据在学界和业界的现状, 因此, 针对大数据大量且多样化的岗位招聘信息, 发现我国大数据企业人才需求与高校和研究所学术研 挖掘大数据岗位需求, 帮助企业定位人才, 是非常必 究之间的关系; 黄崑等[5]利用内容分析法从职位基本 要的。目前, 针对国内乃至世界范围内大数据岗位的 信息、岗位职责、任职要求三个角度分析大数据岗位 研究较少, 大多停留在利用统计分析和信息计量等方 对人才知识和能力的要求, 并对图书馆情报学科人才 法进行研究。在国外, Lukić[2]对企业大数据岗位的技能 适应国内大数据环境下的培养方案提出建议。 需求以及岗位影响力提出了假设, 利用实证研究和调 综上, 传统的统计学和计量学的方法在研究大数 查问卷的方法进行验证, 最后总结出企业对大数据岗 据岗位需求上虽有一定的成就, 但是上述研究基本都 位不仅存在技能的要求, 也包括对如商业头脑、社交 存在数据量较小的问题。同时在研究过程中也需要使 技能等职业素养的要求。但由于采用调查问卷的方式, 用大量的人力对数据进行分析, 研究结果较容易受到 通讯作者: 王东波, ORCID: 0000-0002-9894-9550, E-mail: db.wang@ 。 *本文系江苏省社会科学基金项目“大数据环境下汉英短语级平行语料标注及知识挖掘研究”(项目编号: 13XWC017)的研究成果之一。 32 数据分析与知识发现

您可能关注的文档

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档