网站大量收购独家精品文档,联系QQ:2885784924

阿里大数据比赛介绍.docVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
赛题介绍 本赛题适用于season1 和season 2的比赛,season 3 为线上赛(season 2 赛后公布题目)。? 在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。 我们会开放如下数据类型: 字 段 字段说明 提取说明 user_id 用户标记 抽样字段加密 Time 行为时间 精度到天级别隐藏年份 action_type 用户对品牌的行为类型 包括点击、购买、加入购物车、收藏4种行为? (点击:0 购买:1 收藏:2 购物车:3) brand_id 品牌数字ID 抽样字段加密 用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样,且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。 评估指标 我们希望参赛队的预测, 预测的品牌准确率越高越好,也希望覆盖的用户和品牌越多越好,所以用最常用的准确率与召回率作为排行榜的指标。 准确率:? 注:? N 为参赛队预测的用户数? pBrandsi为对用户i 预测他(她)会购买的品牌列表个数? hitBrandsi对用户i预测的品牌列表与用户i真实购买的品牌交集的个数 召回率:? 注:? M 为实际产生成交的用户数量? bBrandsi为用户i 真实购买的品牌个数? hitBrandsi预测的品牌列表与用户i真实购买的品牌交集的个数 最后我们用F1-Score 来拟合准确率与召回率,并且大赛最终的比赛成绩排名以F1得分为准。? 不同赛季使用数据说明 Season 1赛季数据 1)??数据获取格式:? ?????参赛者通过大赛官网报名成功后,可以直接下载数据到本地,直接使用。(下载地址在参赛者的个人中心)? 2)??数据说明:? ?????提供的原始文件有大约4M左右,涉及1千左右天猫用户,几千个天猫品牌,总共10万多条的行为记录。用户4种行为类型(Type)对应代码分别为: ?????点击:0;购买:1;收藏:2;购物车:3? 3)??提交评分方式:? ?????参赛者将预测的用户存入文本文件中,格式如下:? ?????user_id \t brand_id , brand_id , brand_id \n? ?????上传的结果文件名字不限(20字以内),文件必须为txt格式。 ?????如图: ????? ?????将预测结果文件上传至大赛官网结果提交入口即可。(提交结果入口在参赛者的个人中心) Season 2赛季数据 1)??数据获取方式:? ?????参赛者只能登陆阿里巴巴天池集群获取数据,且数据不能下载,所有数据分析,计算,提交评分都将在天池集群上完成。登陆天池集群方法,请留 ?????意后续的指导文档和邮件通知。? 2)??数据说明:? ?????提供的数据量,涉及千万级天猫用户,万级天猫品牌,时间跨度4个月的行为记录。? ?????提供的训练数据在天池集群的表t_alibaba_bigdata_user_brand_tota_1中,字段分别为:user_id,brand_id, type, visit_datetime。如图所示 ????? ?????用户4种行为类型(Type)对应代码分别为:? ?????点击:0;购买:1;收藏:2;购物车:3? 3)??提交评分方式:? ?????参赛者完成用户品牌偏好预测后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:t_tmall_add_user_brand_predict_dh, ?????包含user_id和brand两列。其中brand字段为预测的偏好品牌ID,多个品牌之间用逗号(,)分隔。? ?????例如: ?????2. 大赛数据抽样方式? 本次大赛的数据直接采用随机抽样的方式,抽取了天猫网站线上的一部分真实数据,抽样后数据未经过任何人为处理,所以数据包括了网站上所有真实情况(促销、活动、刷信用等等)。用户对所有商品的行为,都映射为用户对商品所对应的品牌行为。数据分别对用户和品牌做了部分抽样,所以提供的数据为一部分用户和一部分的品牌。 3. 品牌数据如何抽取的? 所有品牌数据均来自于商品信息,但不包括书籍类目和充值等没有品牌的类目数据,只针对包含正常品牌信息的商品。 4.???4种用户行为的类型有什么区别? 点击:点击行为是用户在网站上对商品的一次浏览点击行为。 购物车:用户对商品的加入购物车行为,购物车本身有容量限制(50个商品),用户可以在购物车中直接购买商品,或者删除购物车中商品。数据中没有提供用户删除购物车内商品的行为。

文档评论(0)

185****7617 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档