- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
Alibaba
天池实践手册
刖百
本手册从天池选手的角度出发,通过具体的案例场景引导用户使用御膳房平进行数据开发、数据
建模以及预测。
本手册将从以下几个步骤来描述如何使用御膳房进行数据分析和建模:
•课题介绍
•环境和账号
•获取数据
•实现步骤
由于是基于特定案例引导,本文展示的仅仅是ODPS和算法功能的冰山一角。关于详细的ODPS
和算法功能,可以通过在线帮助手册了解更多。
请参考ODPS在线帮助手册。主要参考模块:根本介绍、常用命令、SQL语法,MR语法。
关于MR的使用和配置方法请参考御膳房用户手册。
内容
前言I
内容II
1课题介绍1
1.1课题介绍错误!未定义书签。
数据说明1
输出要求2
评估指标3
1.2解题思路3
2环境、账号4
2.1登录御膳房错误!未定义书签。
3获取数据5
3.1工程首页5
3.2查看数据5
4实现步骤6
4.1数据开发平的使用(以下也称IDE)7
准备工作7
数据分析8
特征工程14
4.2PAI平29
PAI简介29
数据抽样29
建模和评估32
PAI命令及模型同步36
线上测试集的训练和预测36
名词解释37
修订历史38
1课题介绍
1.1背景
随着移动电商业务的快速开展,用户对移动端网络的访问是随时随地的,具有更丰富
的场景数据。如何在这些巨大的信息数据中快速挖掘出对我们有用的信息已成为当前
急需解决的问题。
对于移动电商来说,可以运用这些有用的信息以及个性化技术的手段,对用户进行一
系列的个性化推荐,帮助用户从这些网络过量的信息里面筛出他所需要的信息,提升
移动端用户的用户体验,提升个性化推荐引导的成交率,从而到达精准营销(Precision
mareting)的目的。
如下是一个简单的个性化推荐的流程:
1.2课题介绍
本课题以阿里巴巴移动电商平的真实用户-商品行为数据为根底,同时提供移动时代
特有的位置信息。您需要通过大数据和算法构建面向移动电子商务的商品推荐模型,
挖掘数据背后丰富的内涵,为移动用户在适宜的时间、适宜的地点精准推荐适宜的内
容。
在真实的业务场景下,我们往往需要对所有品的一个子集构建个性化推荐模型。在
完成这件任务的过程中,我们不仅需要利用用户在这个品子集上的行为数据,往往
还需要利用更丰富的用户行为数据。
如下是一个真实的业务场景:
给出一定量用户在时间段11月18日~12月18H内的移动端行为数据(D),
需要预测12月19日用户对品子集(P)的购置数据。具体的数据说明下面将会详
细介绍。
1.2.1数据说明
提供的数据包含两个局部。第一局部是用户在品全集上的移动端行为数据(D),
表名为tianchi_mobile_recommend_train_user,包含如下字段:
字段字段说明
文档评论(0)