基于Hadoop平台人才发现与推荐系统研究.docVIP

基于Hadoop平台人才发现与推荐系统研究.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop平台人才发现与推荐系统研究

基于Hadoop平台人才发现与推荐系统研究   摘要:随着互联网和社交网络的发展,个人信息越来越多地暴露在网络空间中,有效收集和挖掘这些信息可发现所需要的人才信息。设计了一个人才发现与推荐系统,该系统基于Hadoop平台,利用网络爬虫程序寻找网页,通过信息抽取技术获取页面内容,利用lucene的分词器提取文本中的关键词,根据关联规则算法挖掘出关联关键词,采用基于相似项的策略推荐人才。系统为企业提供了一种基于网页数据的技术人才发现和推荐工具,节约了大量时间和成本。   关键词:人才推荐系统;Hadoop平台;网络爬虫;信息抽取;相似项   中图分类号:TP303 文献标识码:A 文章编号文章编号2014)001000403   作者简介作者简介:王孟頔(1992-),女,江苏大学计算机科学与通信工程学院学生,研究方向为数据挖掘与机器学习;邰泳(1990-),男,江苏大学计算机科学与通信工程学院硕士研究生,研究方向为数据挖掘与机器学习;薛安荣(1964-),男,江苏大学计算机科学与通信工程学院教授,研究方向为数据挖掘与机器学习。   0 引言   随着互联网的发展,博客已经成为众多网民的重要网络应用工具,博客作为网民记录生活和发表评论的载体,其自身蕴含着许多非常有价值的信息,如何充分识别、提取并分析利用这些信息,成为当前摆在研究人员面前的重要课题。设计一个基于互联网的人才信息获取、提取、分析和推荐平台,可改变传统的人才招聘模式,缩短招聘周期,改善企业的人力资源管理,同时个人也可以从中发现同行,互相交流知识经验,拓宽人脉。   本文结合Hadoop技术,实现了一个利用互联网资源向企业提供人才推荐服务的分布式平台。系统利用网络爬虫程序寻找网页,通过信息抽取技术获取页面信息,利用lucene的分词器提取文本中的关键词,根据关联规则算法挖掘关联关键词,采用基于相似项策略推荐人才。该系统具有网页数据的抓取、网页内容的分析存储、人才数据的提取和挖掘,以及具有一定特征人才信息的推荐功能。用户能够根据所定义的人员特征,如知识领域、分布范围、教育背景或者能力水平等,通过对互联网中网页??容的收集和分析,寻找出具有指定特征的人才数据。   1 系统架构   系统综合运用爬虫技术、信息抽取技术、文本挖掘技术、推荐技术实现人才发现和推荐功能,系统结构如图1所示。   图1 人才推荐系统结构   网络爬虫组件爬取网页,存放到抓取库;信息抽取组件从抓取库中取出页面,抽取页面中的重要文本信息,并将其存放到文章库;知识挖掘组件从文章库里取出文章,提取出反映作者知识的关键词,存放到知识库;关联知识挖掘组件利用语料库中的信息挖掘出关联规则,存放到关联规则库中;推荐组件综合利用知识库和关联规则库中的内容结合用户的需求,向用户推荐人才。   各个库里存放的内容及格式如下:   (1)抓取库存放爬虫爬取到的页面信息,用于信息抽取。格式为:(页面,页面url)。   (2)文章库存放页面的文本信息,用于提取关键词。格式为:(文章所在页面url,文章内容,作者信息)。   (3)知识库存放提取的关键词,用于发现人才信息。格式为:(文章所在页面url,作者信息,关键词)。   (4)语料库存放人工搜集的技术类文章,用于发现关联规则。格式为:(技术类文章)。   (5)关联规则库存放关联规则,用于推荐人才信息。格式为:(关键词1,关键词2,…),(关键词3,关键词4)。   2 组件实现   2.1 网络爬虫   爬虫模块是在Nutch的基础上进行二次开发,由4个主要的数据结构提供数据支撑,分别是Web DB、LinkDB、Segments和Index。WebDB用来存储从抓取开始看到的所有URL 的相关信息;LinkDB 用来存储链接信息;一次爬行会产生很多个段(segment),段存储的是爬虫在一次抓取过程中抓到的网页以及这些网页的索引;Index是爬虫抓取的所有网页的索引,它是将所有segment中的索引合并处理后得到的。在此基础上,页面抓取的工作流程如图2所示。   (1)建立初始URL集。操作结果:生成一个txt文件,上面记录了爬虫初始访问的URL地址集。   (2)将URL集注入crawldb数据库,使用injector、nutch核心包之一crawl包中的类。操作结果:crawldb数据库内容得到更新,包括URL及其状态。   (3)根据crawldb数据库创建抓取列表,使用generate、crawl包中的类generator。操作结果:创建了抓取列表,存放在segment文件夹下,以时间为文件夹名称。循环抓取多少次,segment文件夹下就会有多少个以时间为名称的文件夹。   (4)执行抓取,

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档