- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
本文使用Word2vec结合K-Means聚类z Word2vec结合层次聚类, 和隐含狄利克雷分布三种方法描述工作技能的相关性,在评估整体关 联性方面它们都是有效的,最终结果在很大程度上取决于实际应用场 景。
此项目的成员包括Brett Amdur, Christopher Redino和
Amy (Yujing) Mao他们毕业与今年1月11日至4月1日举办
的为期十二周的纽约数据科学全职训练营。这篇文章基于他
们的终期项目 顶点项目(Capstone Project )而完成。
点击此处可见原文。
I.概述
此项目的主要内容是应用机器学习方法来判断简历中工作 技能的匹配程度。一家机构向纽约数据科学研究院的学生陈 述了此项目,他们希望找到合适的学生来完成项目。本文的 三个 接受了这个项目,他们当时都是研究院的全日制学 生。 们与该机构的几名代表合作完成了这篇文章中的分 析内容尽管该机构不愿意我们透露他们的姓名,但是 仍然想表达对此机构的感谢。
这个项目的总体思路是揭示简历上展现的技能背后的语义 相似性和关系。一种基于语义的评估工作技能相似性的方法 有许多的潜在应用场景,它主要通过理解简历中的文本从而 在简历中发现技能之间的关系。虽然有其他方法来判断工作技能之间的语义相关度,但机器学习技术带给我们更有趣和 强大的结果。
II-词向量
该机构为我们提供了大约250 , 000份简历的文本数据。在 我们的项目开展之前,该机构已经给每份简历加上了是否与
〃数据〃或是〃分析〃相关的标签。此数据还包括了一份经 过机构编译的清单,罗列了大约3000种相关的工作技能。 我们决定用Word2vec的词向量技术来评测清单中3000项 技能的相似度,这里假设简历的文本数据就是Word2vec的 文本集合。也许部分读者还不熟悉Word2vec , Word2vec 技术用单词在文本中的相隔距离作为相关性的指标。具体来 说,Word2vec创建了一个共现矩阵,用来表示文本集中某
个单词在一个口〃范围内与另一个单词相邻出现的频率。
个单词在一个
口〃范围内与另一个单词相邻出现的频率。
用户可以调节窗口大小,即相邻单词的个数。然后利用奇异 值分解的方法降低共现矩阵的维度。得到的结果是空间中的 —个向量,空间的各个维度表示隐语义,因此:
1在向量空间中相近的两个单词的语义可能更相近;
2每个维度表示一种特定语义下的含义。
—个经常被引用的Word2vec例子就是表示〃国王〃的词向 量减去表示男人的词向量,再加上表示女人的词向 量,计算结果得到的向量与表示女王〃的词向量非常接近。 自2013年谷歌研究员公布Word2vec技术以来,它在判断术 语相关性方面已经显现出卓越的成绩,而且仍将是一个重要 的研究方向。
针对这个项目,我们在250k份简历上训练了Word2vec模型,
sis口大小设为12 ,向量空间的维度设为100?我们用Ben
sis
Schmidt开发的版本。使用skip-gram方法来创建共现矩阵z 使用了 8GB的内存和2.5GHz的处理器,整个处理时间大约为 3.5个小时。
向量空间创建之后,我们下一步任务就是评估向量空间对工 作技能相关度的描述准确性。我们在向量空间使用聚类的方 法,以评估词向量是否将工作技能聚集到对应的类别中。
a. K-Means聚类
我们以K-Means聚类方法为例。广义地定义,K-Means方 法是将一组样本按照它们在特征空间中的相互距离划分为 若干个子类,子类的个数可以自定义,即k的值。我们这里 使用3000个技能作为样本来聚类,依据它们在Word2vec 向量空间中的词向量(简历文本集和技能列表中的单词都使 用Snowball方法提取了词干)。我们武断地决定将词分为15 个簇。我们说自己的决定武断是因为我们用R的NbClust包 来判断15?25之间的最佳k取值z却没有很好的结论。
当然,在评价一个算法识别词的意义时会含有主观性的因素。 但基于我们的目测判断,Word2vec对工作技能的聚类结果 相对出色。每个簇内的单词的含义与其它簇内的单词含义似
乎有明显差别。我们也看至IJ
乎有明显差别。我们也看至
IJ,某些簇内的单词还可以被进
步分为多个子类,但鉴于我们任意选择的K值,这个结果并 不奇怪(这表明事实上选择一个更大的k值就会拆散这些簇)。
最重要的是,我们没有看到非常多的混合组,这意味着我们 没有看到意义相近的词被分配到不同的簇。在评估聚类结果 时,我们对这15个簇的含义做了如下的解释:
1软件开发和数据科学
2会计/项目管理 3电信
4通用技术
5法律/职业/其它 6大数据/数据工程
7医学 8人力资源
9 一般业务
10设计与项目管理
11银行和金融
12网站开发
13教育类专题
14社交媒
您可能关注的文档
最近下载
- 高挖深填施工安全专项施工方案.pdf VIP
- 2023年农产品食品检验员考试题库附答案.pdf VIP
- 近五年高考英语高频词汇汇编(打印版).pdf
- 2025苏教版数学三年级上册2.1《整十、整百数乘一位数的口算和估算》(课件).pptx
- 心理健康状况自评量表(SCL-90).doc VIP
- 高级财务管理题库.pdf VIP
- 奥林巴斯 设备说明书CV-190图像处理装置.pdf VIP
- 牙体修复治疗术.pptx VIP
- 面向低轨卫星通信的K波段LTCC多通道集成接收前端模块.docx
- 2025广西公需科目考试答案(84分)——“一区两地一园一通道”建设;人工智能时代的机遇与挑战.pdf VIP
文档评论(0)