- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
赛题介绍
本赛题适用于season1 和season 2的比赛,season 3 为线上赛(season 2 赛后公布题目)。?在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。
我们会开放如下数据类型:
字 段 字段说明 提取说明 user_id 用户标记 抽样字段加密 Time 行为时间 精度到天级别隐藏年份 action_type 用户对品牌的行为类型 包括点击、购买、加入购物车、收藏4种行为?(点击:0 购买:1 收藏:2 购物车:3) brand_id 品牌数字ID 抽样字段加密 用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样,且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。
评估指标
我们希望参赛队的预测, 预测的品牌准确率越高越好,也希望覆盖的用户和品牌越多越好,所以用最常用的准确率与召回率作为排行榜的指标。
准确率:?注:?N 为参赛队预测的用户数?pBrandsi为对用户i 预测他(她)会购买的品牌列表个数?hitBrandsi对用户i预测的品牌列表与用户i真实购买的品牌交集的个数
召回率:?注:?M 为实际产生成交的用户数量?bBrandsi为用户i 真实购买的品牌个数?hitBrandsi预测的品牌列表与用户i真实购买的品牌交集的个数
最后我们用F1-Score 来拟合准确率与召回率,并且大赛最终的比赛成绩排名以F1得分为准。?
不同赛季使用数据说明
Season 1赛季数据
1)??数据获取格式:??????参赛者通过大赛官网报名成功后,可以直接下载数据到本地,直接使用。(下载地址在参赛者的个人中心)?2)??数据说明:??????提供的原始文件有大约4M左右,涉及1千左右天猫用户,几千个天猫品牌,总共10万多条的行为记录。用户4种行为类型(Type)对应代码分别为:?????点击:0;购买:1;收藏:2;购物车:3?3)??提交评分方式:??????参赛者将预测的用户存入文本文件中,格式如下:??????user_id \t brand_id , brand_id , brand_id \n??????上传的结果文件名字不限(20字以内),文件必须为txt格式。
?????如图:
?????
?????将预测结果文件上传至大赛官网结果提交入口即可。(提交结果入口在参赛者的个人中心)
Season 2赛季数据
1)??数据获取方式:??????参赛者只能登陆阿里巴巴天池集群获取数据,且数据不能下载,所有数据分析,计算,提交评分都将在天池集群上完成。登陆天池集群方法,请留?????意后续的指导文档和邮件通知。?2)??数据说明:??????提供的数据量,涉及千万级天猫用户,万级天猫品牌,时间跨度4个月的行为记录。??????提供的训练数据在天池集群的表t_alibaba_bigdata_user_brand_tota_1中,字段分别为:user_id,brand_id, type, visit_datetime。如图所示
?????
?????用户4种行为类型(Type)对应代码分别为:??????点击:0;购买:1;收藏:2;购物车:3?3)??提交评分方式:??????参赛者完成用户品牌偏好预测后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:t_tmall_add_user_brand_predict_dh,?????包含user_id和brand两列。其中brand字段为预测的偏好品牌ID,多个品牌之间用逗号(,)分隔。??????例如:
?????2. 大赛数据抽样方式?
本次大赛的数据直接采用随机抽样的方式,抽取了天猫网站线上的一部分真实数据,抽样后数据未经过任何人为处理,所以数据包括了网站上所有真实情况(促销、活动、刷信用等等)。用户对所有商品的行为,都映射为用户对商品所对应的品牌行为。数据分别对用户和品牌做了部分抽样,所以提供的数据为一部分用户和一部分的品牌。
3. 品牌数据如何抽取的?
所有品牌数据均来自于商品信息,但不包括书籍类目和充值等没有品牌的类目数据,只针对包含正常品牌信息的商品。
4.???4种用户行为的类型有什么区别?
点击:点击行为是用户在网站上对商品的一次浏览点击行为。
购物车:用户对商品的加入购物车行为,购物车本身有容量限制(50个商品),用户可以在购物车中直接购买商品,或者删除购物车中商品。数据中没有提供用户删除购物车内商品的行为。
您可能关注的文档
- 闽南语歌曲经典老歌344首.doc
- 闽文化概论作业题库.doc
- 阀门压力单位换算表.doc
- 阅读3号床那个男人.doc
- 阅读《呐喊》《彷徨》的记忆.doc
- 阅读中的环境描写和作用.doc
- 阅读加油站(8)课本素材运用.doc
- 阅读和写作如何做到有效结合.doc
- 阅读教学中如何落实感情目标.doc
- 阅读理解20篇文言文20篇.doc
- 人教版英语5年级下册全册教学课件.pptx
- 部编人教版2年级上册语文全册教学课件含单元及专项复习.pptx
- 人教版8年级上册英语全册教学课件(2021年8月修订).pptx
- 教科版(2017版)6年级上册科学全册课件+课时练.pptx
- 人教版PEP版6年级英语下册全册教学课件(2022年12月修订).pptx
- 部编人教版2年级下册语文全册课件(2021年春修订).pptx
- 人教版数学6年级下册全册教学课件(2023年教材).pptx
- 湘少版5年级下册英语全册教学课件(2021年春修订).pptx
- 人教PEP4年级下册英语全册教学课件 [2}.pptx
- 人教版6年级上册英语全册教学课件.pptx
文档评论(0)