- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
研究论文
基于大数据岗位需求的文本聚类研究*
刘睿伦 叶文豪 高瑞卿 唐梦嘉 王东波
( 南京农业大学信息科学技术学院 南京 210095)
摘要: 【目的 】对大数据工作岗位需求文本进行挖掘, 帮助大数据企业更精准地定位所需人才。【方法 】抽取招
聘网站上2017 年第一季度关于“大数据”的工作岗位信息, 使用TF-IDF 并结合Word2Vec 和K-means 实现基于语
义的聚类, 并利用轮廓系数方法获取最佳聚类效果。【结果 】利用抽取获得的实体对文本向量进行表达能够达到
良好的聚类效果, 最终将岗位需求文本分为工作能力要求、学历要求以及工作经验要求三类。【局限 】各网站信
息发布的格式不统一, 数据清洗不够全面, 对聚类效果产生影响; 挖掘获取的招聘信息数据量不充足, 使
Word2Vec 模型训练集较小, 训练结果还有提升空间。【结论 】根据聚类结果发现大数据岗位对学历要求不高、
企业偏好有经验的但也不排除无经验的求职者、企业对职位素养要求要高于计算机技术要求等特点。
关键词: 大数据岗位 Word2Vec K-means 轮廓系数
分类号: G351
DOI : 10.11925/infotech.2096-3467.2017.0817
问卷的题目广度和深度受限于问卷设计者的认知程
1 引 言
度, 难以挖掘更深层次的无法直观获取的内容; Kim
目前国内对大数据人才的需求呈现爆发式的增 等[3]使用内容分析方法对 1 240 条数据科学家招聘信
长。据国家信息中心发布的《中国大数据发展报告 息进行分析, 总结企业对数据科学家一职的专业以及
[1]
(2017) 》 指出, 由于大数据技术在我国由兴起到广泛 学历有着较高的要求, 主要的专业领域涉及统计学、
应用的历时较短, 人才培养速度较缓, 大数据从业者 机器学习及分析。但由于数据量较小, 使得结果不具
技能和经验不足。并且大数据技术入门门槛较高, 加 有可靠性。在国内, 夏火松等[4]对比了CNKI 收录的大
上部分从业者对大数据的盲目跟从, 最终造成企业大 数据相关的硕博士论文以及招聘网站硕博士学历的相
数据岗位缺口扩大以及人才与岗位需求不对口的现象, 关招聘信息, 利用文献计量与内容分析的方法, 从多
成为制约我国大数据产业发展的关键障碍之一。 个角度对比分析了我国大数据在学界和业界的现状,
因此, 针对大数据大量且多样化的岗位招聘信息, 发现我国大数据企业人才需求与高校和研究所学术研
挖掘大数据岗位需求, 帮助企业定位人才, 是非常必 究之间的关系; 黄崑等[5]利用内容分析法从职位基本
要的。目前, 针对国内乃至世界范围内大数据岗位的 信息、岗位职责、任职要求三个角度分析大数据岗位
研究较少, 大多停留在利用统计分析和信息计量等方 对人才知识和能力的要求, 并对图书馆情报学科人才
法进行研究。在国外, Lukić[2]对企业大数据岗位的技能 适应国内大数据环境下的培养方案提出建议。
需求以及岗位影响力提出了假设, 利用实证研究和调 综上, 传统的统计学和计量学的方法在研究大数
查问卷的方法进行验证, 最后总结出企业对大数据岗 据岗位需求上虽有一定的成就, 但是上述研究基本都
位不仅存在技能的要求, 也包括对如商业头脑、社交 存在数据量较小的问题。同时在研究过程中也需要使
技能等职业素养的要求。但由于采用调查问卷的方式, 用大量的人力对数据进行分析, 研究结果较容易受到
通讯作者: 王东波, ORCID: 0000-0002-9894-9550, E-mail: db.wang@ 。
*本文系江苏省社会科学基金项目“大数据环境下汉英短语级平行语料标注及知识挖掘研究”(项目编号: 13XWC017)的研究成果之一。
32 数据分析与知识发现
您可能关注的文档
- 域创新能力监测指标体系及指标说明.DOC
- 城邻里环境在儿童户外体力活动方面的可供性研究-北京大学.PDF
- 基于AHP法的大学地球化学课程内容体系定量化优选-中国地质教育.PDF
- 基于A–V–P的网络舆情信息情感维度空间的模型构建-情报资料工作.PDF
- 基于ArcGISServer的海域使用管理信息系统开发.PDF
- 基于CFD的离心泵优化设计与试验-IngentaConnect.PDF
- 基于CloudSat和Aqua卫星资料的北疆一次暴雪-沙漠与绿洲气象.PDF
- 基于CiteSpace的国内可持续消费研究知识图谱分析-南京工业大学.PDF
- 基于DMC2PID的循环流化床锅炉床层温度控制设计与实现.PDF
- 基于GPS的山区农村公路线形安全改进方法-北京理工大学.PDF
- 基于层次分析法的水利PPP项目风险评价-重庆理工大学学报.PDF
- 基于平行四边形机构的车轮几何参数自动测量方法的研究-机械工程学报.PDF
- 基于小波分析法的蛋白质结构研究-中国科技论文在线.PDF
- 基于应变不变量失效理论的碳纤维增强树脂基复合-北京航空航天大学.PDF
- 基于弹性网络模型的蛋白质结构-功能关系.PDF
- 基于形态学算子的磨粒三维重构模型-计算机工程与应用.PDF
- 基于差动共焦的并行三维形貌检测系统的研究-中国科技论文在线.PDF
- 基于强祸合理论的熔锥型单模光纤棍合器研究-中国科技论文在线.PDF
- 基于改进GPC-PID算法的自动灌浆控制系统研究-计算机应用与软件.PDF
- 基于改进多目标粒子群算法的冷连轧规程优化设计-中国电机工程学报.PDF
原创力文档


文档评论(0)