网络招聘信息的数据挖掘与综合分析-优秀论文.pdf

网络招聘信息的数据挖掘与综合分析-优秀论文.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四届“泰迪杯” 全国数据挖掘挑战赛 优 秀 作 品 作品名称:网络招聘信息的数据挖掘与综合分析 荣获奖项:特等并获企业冠名奖 作品单位:北京林业大学 作品成员:孙海锋 郑中枢 杨武岳 指导老师:崔晓晖 网络招聘信息的分析与挖掘 摘要 近年来,随着互联网的广泛应用和网络招聘的迅速发展,网络招聘信息平台 已成为招聘者获取信息的主要渠道。因此,运用网络文本分析和数据挖掘技术对 网络招聘信息的研究具有重大的意义。 对于问题 1,通过 PositionId 对招聘信息表、职位描述表进行去重,得到不 重复的招聘职位信息。利用 jieba 中文分词工具对岗位描述信息进行分词,并通 过 TF-IDF 算法提取每个职位描述的前 5 个关键词。再利用 TF-IDF 算法得到每个 职位描述的 TF-IDF 权重向量,采用 K-means 对 TF-IDF 权重向量进行聚类,得到 7 个 质 心 。 分 别 求 出 距 离 各 个 质 心 最 近 的 5 个 职 位 , 结 合 招 聘 信 息 表 的 PositionFirstType 字段,根据 KNN 算法,为各个类加上行业性质标签。再分别对 各个职业类型的 PositionName 进行统计分析,得出各个职业类型对应的专业领 域。 对于问题 2,通过利用 excel 对去重后的招聘信息表对行业领域、工作地域、 职位分类三个项目进行分类筛选,对各个项目的各类内容进行计数汇总统计,根 据计数多的内容去定于热门的行业、地域、职位。 对于问题 3,根据数据挖掘与分析的职位特征,将新兴的职位定义为两大类 并分别筛选出来。利用发散性思维,再分别对筛选出来的结果按照城市(city)、 公司阶段(financestage)、学历要求(Education)、薪资(Salary)四个方面对其 进行多方面系统地统计,结合图表进行分析预测相关职位的需求。 对于问题 4,通过寻找 it 职位对应的 id 的职业描述,并对其分词和 it 专业 语义库构建,在此基础上筛选出所有的 it 职位。对附件 1 进行数据预处理,在预 处理得到的数据上进行数据初步筛选出 it 行业的职位。对筛选出的 it 职位对应 的职业 id 找到职位描述表的职位描述,对该描述构建 it 专业语义库。判断职业 描述表中职位是否符合 it 职业,通过判断与专业语义库的交集长度来确定是否为 it 职业并统计地域。 对于问题 5,根据研究结果,通过分析目前的主要职业类型、职业要求、热 门行业及地域、工作经验及就业现状等问题,给在校大学生的就业规划提出可行 性的建议。 关键词:去重 中文分词 K-means 聚类 KNN 算法 TF-IDF 算法 预测相关职位 第 1 页 第四届“泰迪杯”全国数据挖掘挑战赛 Network Recruitment Information Analysis and Mining Abstract In recent years, with the wide application of Internet and the rapid development of Internet recruitment, recruitment information network platform has become the main channel for interviewers to obtain information.Therefore, using the network te

文档评论(0)

177****6330 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档