1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
Mahout学习

用Mahout 构建职位推荐引擎 Posted: Oct 24, 2013 Tags: Hadoopjob Mahoutrecommendation Comments: 2 Comments Hadoop 家族系列文章,主要介绍Hadoop 家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue 等。 从2011 年开始,中国进入大数据风起云涌的时代,以Hadoop 为代表的家族软件,占据了大数 据处理的广阔地盘。开源界及厂商,所有数据软件,无一不向Hadoop 靠拢。Hadoop 也从小众 的高富帅领域,变成了大数据开发的标准。在Hadoop 原有技术基础之上,出现了Hadoop 家族 产品,通过“大数据”概念不断创新,推出科技进步。 作为IT 界的开发人员,我们也要跟上节奏,抓住机遇,跟着Hadoop 一起雄起! 关于作者:  张丹(Conan), 程序员Java,R,PHP,Javascript  weibo :@Conan_Z  blog: http://blog.fens.me  email: bsspirit@ 转载请注明出处: http://blog.fens.me/hadoop-mahout-recommend-job/ 前言 随着大数据思想实施的落地,推荐系统也开始倍受关注。不光是电商,各种互联网应用都开始应 用推荐系统,像搜索,社交网络,音乐,餐饮,地图服务等等。 在以前,我们没有使用推荐算法的时候,我们是通过设置各种约束条件,匹配数据的自然属性呈 现给用户,这种就是基于规则的系统。比如,用户购买了一个商品,我们会推荐同类别的其他商 品,通过类别属性作为推荐的规则。后来问题就出现了,当用户一次性买了多种类别的不同商品 的时候,前一条规则就失败了,我们要进一步设计规则,IT 类别优先推荐,价格高的产品优先 推荐…..几个回合下来,我们要不停的增加规则,以至于规则有可能的会前后冲突,增加一条新 的规则会让推荐结果越来越不好,而且还无法解释是为什么。 推荐算法从另一角度入手,解决了基于规则设置的问题。下面将用Mahout 来构建一个职位推荐 算法引擎。 目录 1. Mahout 推荐框架概述 2. 需求分析:职位推荐引擎指标设计 3. 算法模型:推荐算法 4. 架构设计:职位推荐引擎系统架构 5. 程序开发:基于Mahout 的推荐算法实现 1. Mahout 推荐系统框架概述 Mahout 框架包含了一套完整的推荐系统引擎,标准化的数据结构,多样的算法实现,简单的开 发流程。Mahout 推荐的推荐系统引擎是模块化的,分为5 个主要部分组成:数据模型,相似度 算法,近邻算法,推荐算法,算法评分器。 更详细的介绍,请参考文章:从源代码剖析Mahout 推荐引擎 2. 需求分析:职位推荐引擎指标设计 下面我们将从一个公司案例出发来全面的解释,如何进行职位推荐引擎指标设计。 案例介绍: 互联网某职业社交网站,主要产品包括 个人简历展示页,人脉圈,微博及分享链接,职位发布, 职位申请,教育培训等。 用户在完成注册后,需要完善自己的个人信息,包括教育背景,工作经历,项目经历,技能专长 等等信息。然后,你要告诉网站,你是否想找工作!!当你选择“是” (求职中),网站会从数据 库中为你推荐你可能感兴趣的职位。 通过简短的描述,我们可以粗略地看出,这家职业社交网站的定位和主营业务。核心点有2 个:  用户:尽可能多的保存有效完整的用户资料  服务:帮助用户找到工作,帮助猎头和企业找到员工 因此,职位推荐引擎 将成为这个网站的核心功能。 KPI 指标设计  通过推荐带来的职位浏览量: 职位网页的PV  通过推荐带来的职位申请量: 职位网页的有效转化 3. 算法模型:推荐算法 2 个测试数据集:  pv.csv: 职位被浏览的信息,包括用户ID,职位ID  job.

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档