- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘比赛入门以去年阿里天猫推荐比赛为例
写在前面之前写过关于《天猫推荐算法大赛》的总结,但那并不适合给纯新手看,这里再针对性地进行整理,以方便新手理解。仍然以该赛题为例,讲解一个数据挖掘比赛的具体做法,层层深入。本次讲解假定读者对机器学习和数据挖掘有一定的了解,懂基础知识,比如《数据挖掘导论》、《机器学习实战》等,针对简单的数据集做过实验,推荐《机器学习那些事》。文章外链多为引申,如精力有限,先看本文。赛题介绍本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。我们会开放如下数据类型:字 段字段说明提取说明user_id用户标记抽样字段加密Time行为时间精度到天级别隐藏年份action_type用户对品牌的行为类型包括点击、购买、加入购物车、收藏4种行为?(点击:0 购买:1 收藏:2 购物车:3)brand_id品牌数字ID抽样字段加密用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样,且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。——下图是部分样例数据截图和season1的数据集。赛题FAQ1. 抽样方式我们在做训练数据的时候,是首先从天猫全量用户中定了一个抽样比例,确定训练用户集User set。同样,在天猫全量品牌集合中,定了一个抽样比例,确定品牌集合Brand Set。大家拿到的这份数据,是User Set 中的用户在Brand Set 中的所有行为。2. 测试集问“如果一个用户在测试集中对一个品牌购买超过一次,是否要预测具体的购买次数”答:不需要的,只需要预测是否购买即可,不需要预测准确的数字。3. 购买行为定义问:点击“购买”就记录为一次购买,还是付款成功才算作一次购买?答:付款成功才叫一次购买问:代付款的话,购买行为计作购物人的还是代付人的?答:如果用支付宝代付功能,这个不是很确定,等确定了再答复。问:那如果有一个user,一次性买了n件商品(同一个brand),那么应该算是一次购买还是n次购买?答:如果是一次性购买n个不同的商品(同个brand),会产生n条购买记录。如果对同一个商品,分开购买n次(不同订单),会产生n条购买记录。P.S. 点击不一样,只要有发生点击,则不论点击了多少商品或品牌,都记一次。问:对于一次购买(先加入购物车再购买),那么用户行为是否为“购买”,而没有“加入购物车”答:不会,“加入购物车”与“购买”是独立行为,所以是一次“加入购物车”+一次“购买”(可模拟一下淘宝购物流程,帮助理解)数据挖掘初阶问题解析首先,我们要确定待解决的问题映射到数据挖掘,具体会是怎么样一个问题。如果连自己要解决的是什么问题都不清楚,那就别提怎么解题了。根据官方描述,这次比赛要做的就是:根据用户4个月在天猫上对品牌的点击、收藏、购物车、购买等行为记录,预测第5个月哪些用户会购买哪些品牌。显然,根据所给赛题和数据,我们需要解决的是监督学习中的分类问题,而且是二分类问题——即要判定用户购买或未购买品牌。注意,这不是一个传统的推荐问题,因为数据是离线的,你提交的预测结果无法影响在线用户的决策;而且就所给字段来说(对象是brand,而且没有任何类目相关的信息),基本上只能在用户操作过的品牌里进行购买预测。对于推荐,XavierAmatriain有个比较总结性的阐述:/xamat/recommender-systems-machine-learning-summer-school-2014-cmu而数据挖掘项目里,所要研究的问题都会以样本为单位进行,分类问题里的类别标签则以样本在业务问题中的定义进行设置。那么显然,这次赛题里的样本由user_id和brand_id共同决定,就如同著名的鸢尾花数据集中代表每一个样本的行号那样,与其他样本区别开来。而样本的类别标签则由未来一个月中该用户是否购买该品牌决定,通常来说,用1表示有购买的正样本,而0表示未购买的负样本。训练集和测试集的划分与构建而分类问题中,模型需要经过训练集的学习,才能用于测试集,而训练集和测试集在形式上的区别在于前者有类别标签,后者则需要模型输出相应的类别标签。这里的问题是依据前4个月的用户操作记录预测第5个月的购买情况,所以通常来说,训练集的构建需要利用前3个月的数据,而其相应的类别标签,则来自于第4个月的购买情况;而测试集的构建则可用到4个月的完整数据。下面举个例子,用于解释训练集和测试集的具体表现形式。训练集样本示例测试集样本示例训练集样本示例中的user_id, brand_id用于表示唯一的样本id,而feature_1, feature_2则用前3个月的数据构建而来(绝对不能引入未来的数据,否则会影响模型走入歧途)。在这里继续展开一
您可能关注的文档
最近下载
- 海信日立空调工程安装操作标准.pdf VIP
- 2021-2027全球及中国红外探测器芯片行业研究及十四五规划分析报告.docx VIP
- 2025-2026学年小学美术二年级上册(2024)岭南版(2024)教学设计合集.docx
- 02s404防水套管图集.docx VIP
- NASA认知负荷评估量表(TLX).docx VIP
- 20以内加减法练习题(a4).pdf VIP
- 光纤通信考试题及答案.doc VIP
- 天津市南开区2024-2025学年九年级上学期期末语文试题(含答案).pdf VIP
- 2025年公路水运安全员证考试题库答案.docx
- (推荐!)《ISO 37001-2025反贿赂管理体系要求及使用指南》专业深度解读和应用培训指导材料之7:9绩效评价(2025A1).docx VIP
文档评论(0)