天池实践手册.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Alibaba天池实践手册

Alibaba

天池实践手册

前言

本手册从天池选手的角度出发,通过具体的案例场景引导用户使用御膳房平台进行数据开发、数据建模以及预测。

本手册将从以下几个步骤来描述如何使用御膳房进行数据分析和建模:

课题介绍

环境和账号

获取数据

实现步骤

由于是基于特定案例引导,本文展示的仅仅是ODPS和算法功能的冰山一角。关于详细的ODPS和算法功能,可以通过在线帮助手册了解更多。

请参考ODPS在线帮助手册。主要参考模块:根本介绍、常用命令、SQL语法,MR语法。

关于MR的使用和配置方法请参考御膳房用户手册。

内容

TOC\o1-3\h\z\u前言I

内容II

1课题介绍1

1.1课题介绍1

数据说明1

输出要求2

评估指标2

1.2解题思路3

2环境、账号4

2.1登录御膳房4

3获取数据6

3.1工程首页6

3.2查看数据8

4实现步骤9

4.1数据开发平台的使用〔以下也称IDE〕10

准备工作10

数据分析13

特征工程19

4.2PAI平台45

PAI简介45

数据抽样47

建模和评估52

PAI命令及模型同步62

线上测试集的训练和预测63

名词解释66

修订历史67

课题介绍

背景

随着移动电商业务的快速开展,用户对移动端网络的访问是随时随地的,具有更丰富的场景数据。如何在这些巨大的信息数据中快速挖掘出对我们有用的信息已成为当前急需解决的问题。

对于移动电商来说,可以运用这些有用的信息以及个性化技术的手段,对用户进行一系列的个性化推荐,帮助用户从这些网络过量的信息里面筛出他所需要的信息,提升移动端用户的用户体验,提升个性化推荐引导的成交率,从而到达精准营销(Precisionmarketing)的目的。

如下是一个简单的个性化推荐的流程:

课题介绍

本课题以阿里巴巴移动电商平台的真实用户-商品行为数据为根底,同时提供移动时代特有的位置信息。您需要通过大数据和算法构建面向移动电子商务的商品推荐模型,挖掘数据背后丰富的内涵,为移动用户在适宜的时间、适宜的地点精准推荐适宜的内容。

在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。

如下是一个真实的业务场景:

给出一定量用户在时间段11月18日~12月18日内的移动端行为数据〔D〕,

需要预测12月19日用户对商品子集〔P〕的购置数据。具体的数据说明下面将会详细介绍。

数据说明

提供的数据包含两个局部。第一局部是用户在商品全集上的移动端行为数据〔D〕,表名为tianchi_mobile_recommend_train_user,包含如下字段:

?字段

字段说明

提取说明

user_id

用户标识

抽样字段脱敏

item_id

商品标识

字段脱敏

behavior_type

用户对商品的行为类型

包括浏览、收藏、加购物车、购置,对应取值分别是1、2、3、4。

user_geohash

用户位置的空间标识,可以为空

由经纬度通过保密的算法生成

item_category

商品分类标识

字段脱敏

Time

行为时间

精确到小时级别

D集合的记录显示如下:

每一行代表了用户?user_id?对属于分类?item_category?的物品?item_id?在?time?这个时间于地点?user_geohash?发生了交互,交互类型是?behavior_type?。behavior_type?包括浏览、收藏、加购物车、购置,对应取值分别是1、2、3、4。

给出的一共包含31天的交互数据,最后要预测第32天有哪些user会购置哪些item。

第二个局部是商品子集〔P〕,表名为tianchi_mobile_recommend_train_item,包含如下字段:

?字段

字段说明

提取说明

item_id

?商品标识

?抽样字段脱敏

?item_geohash

商品位置的空间标识,可以为空

由经纬度通过保密的算法生成

item_category?

商品分类标识

字段脱敏

这局部的数据,是?tianchi_mobile_recommend_train_user表中出现的物品item_id的一个子集。官方的第32天的会发生购置的?user,item?中的item都是这个数据表中的item,所以我们预测的?user,item?需要根据这个文件来过滤掉一些结果。

训练数据包含了抽样出来的一定量用户在一个月时间〔11.18~12.18〕之内的移动端行为数据

文档评论(0)

寒傲似冰 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8071104010000026

1亿VIP精品文档

相关文档