基于Hadoop平台人才发现与推荐系统研究.docVIP

下载本文档

18
0
约5.05千字
约 12页
2018-06-23 发布于福建
举报
版权申诉

基于Hadoop平台人才发现与推荐系统研究.doc

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop平台人才发现与推荐系统研究

基于Hadoop平台人才发现与推荐系统研究　　摘要：随着互联网和社交网络的发展，个人信息越来越多地暴露在网络空间中，有效收集和挖掘这些信息可发现所需要的人才信息。设计了一个人才发现与推荐系统，该系统基于Hadoop平台，利用网络爬虫程序寻找网页，通过信息抽取技术获取页面内容，利用lucene的分词器提取文本中的关键词，根据关联规则算法挖掘出关联关键词，采用基于相似项的策略推荐人才。系统为企业提供了一种基于网页数据的技术人才发现和推荐工具，节约了大量时间和成本。　　关键词：人才推荐系统；Hadoop平台；网络爬虫；信息抽取；相似项　　中图分类号：TP303 文献标识码：A 文章编号文章编号2014）001000403 　　作者简介作者简介：王孟頔（1992-），女，江苏大学计算机科学与通信工程学院学生，研究方向为数据挖掘与机器学习；邰泳（1990-），男，江苏大学计算机科学与通信工程学院硕士研究生，研究方向为数据挖掘与机器学习；薛安荣（1964-），男，江苏大学计算机科学与通信工程学院教授，研究方向为数据挖掘与机器学习。　　0 引言　　随着互联网的发展，博客已经成为众多网民的重要网络应用工具，博客作为网民记录生活和发表评论的载体，其自身蕴含着许多非常有价值的信息，如何充分识别、提取并分析利用这些信息，成为当前摆在研究人员面前的重要课题。设计一个基于互联网的人才信息获取、提取、分析和推荐平台，可改变传统的人才招聘模式，缩短招聘周期，改善企业的人力资源管理，同时个人也可以从中发现同行，互相交流知识经验，拓宽人脉。　　本文结合Hadoop技术，实现了一个利用互联网资源向企业提供人才推荐服务的分布式平台。系统利用网络爬虫程序寻找网页，通过信息抽取技术获取页面信息，利用lucene的分词器提取文本中的关键词，根据关联规则算法挖掘关联关键词，采用基于相似项策略推荐人才。该系统具有网页数据的抓取、网页内容的分析存储、人才数据的提取和挖掘，以及具有一定特征人才信息的推荐功能。用户能够根据所定义的人员特征，如知识领域、分布范围、教育背景或者能力水平等，通过对互联网中网页??容的收集和分析，寻找出具有指定特征的人才数据。　　1 系统架构　　系统综合运用爬虫技术、信息抽取技术、文本挖掘技术、推荐技术实现人才发现和推荐功能，系统结构如图1所示。　　图1 人才推荐系统结构　　网络爬虫组件爬取网页，存放到抓取库；信息抽取组件从抓取库中取出页面，抽取页面中的重要文本信息，并将其存放到文章库；知识挖掘组件从文章库里取出文章，提取出反映作者知识的关键词，存放到知识库；关联知识挖掘组件利用语料库中的信息挖掘出关联规则，存放到关联规则库中；推荐组件综合利用知识库和关联规则库中的内容结合用户的需求，向用户推荐人才。　　各个库里存放的内容及格式如下：　　（1）抓取库存放爬虫爬取到的页面信息，用于信息抽取。格式为：（页面，页面url）。　　（2）文章库存放页面的文本信息，用于提取关键词。格式为：（文章所在页面url，文章内容，作者信息）。　　（3）知识库存放提取的关键词，用于发现人才信息。格式为：（文章所在页面url，作者信息，关键词）。　　（4）语料库存放人工搜集的技术类文章，用于发现关联规则。格式为：（技术类文章）。　　（5）关联规则库存放关联规则，用于推荐人才信息。格式为：（关键词1，关键词2，…），（关键词3，关键词4）。　　2 组件实现　　2.1 网络爬虫　　爬虫模块是在Nutch的基础上进行二次开发，由4个主要的数据结构提供数据支撑，分别是Web DB、LinkDB、Segments和Index。WebDB用来存储从抓取开始看到的所有URL 的相关信息；LinkDB 用来存储链接信息；一次爬行会产生很多个段（segment），段存储的是爬虫在一次抓取过程中抓到的网页以及这些网页的索引；Index是爬虫抓取的所有网页的索引，它是将所有segment中的索引合并处理后得到的。在此基础上，页面抓取的工作流程如图2所示。　　（1）建立初始URL集。操作结果：生成一个txt文件，上面记录了爬虫初始访问的URL地址集。　　（2）将URL集注入crawldb数据库，使用injector、nutch核心包之一crawl包中的类。操作结果：crawldb数据库内容得到更新，包括URL及其状态。　　（3）根据crawldb数据库创建抓取列表，使用generate、crawl包中的类generator。操作结果：创建了抓取列表，存放在segment文件夹下，以时间为文件夹名称。循环抓取多少次，segment文件夹下就会有多少个以时间为名称的文件夹。　　（4）执行抓取，