数据挖掘比赛入门以去年阿里天猫推荐比赛为例.docxVIP

下载本文档

0
0
约7.14千字
约 14页
2017-07-15 发布于重庆
举报
版权申诉

数据挖掘比赛入门以去年阿里天猫推荐比赛为例.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘比赛入门以去年阿里天猫推荐比赛为例

写在前面之前写过关于《天猫推荐算法大赛》的总结，但那并不适合给纯新手看，这里再针对性地进行整理，以方便新手理解。仍然以该赛题为例，讲解一个数据挖掘比赛的具体做法，层层深入。本次讲解假定读者对机器学习和数据挖掘有一定的了解，懂基础知识，比如《数据挖掘导论》、《机器学习实战》等，针对简单的数据集做过实验，推荐《机器学习那些事》。文章外链多为引申，如精力有限，先看本文。赛题介绍本届赛题的任务就是根据用户4个月在天猫的行为日志，建立用户的品牌偏好，并预测他们在将来一个月内对品牌下商品的购买行为。我们会开放如下数据类型：字段字段说明提取说明user_id用户标记抽样字段加密Time行为时间精度到天级别隐藏年份action_type用户对品牌的行为类型包括点击、购买、加入购物车、收藏4种行为?(点击：0 购买：1 收藏：2 购物车：3）brand_id品牌数字ID抽样字段加密用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样，且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。——下图是部分样例数据截图和season1的数据集。赛题FAQ1. 抽样方式我们在做训练数据的时候，是首先从天猫全量用户中定了一个抽样比例，确定训练用户集User set。同样，在天猫全量品牌集合中，定了一个抽样比例，确定品牌集合Brand Set。大家拿到的这份数据，是User Set 中的用户在Brand Set 中的所有行为。2. 测试集问“如果一个用户在测试集中对一个品牌购买超过一次，是否要预测具体的购买次数”答：不需要的，只需要预测是否购买即可，不需要预测准确的数字。3. 购买行为定义问：点击“购买”就记录为一次购买，还是付款成功才算作一次购买？答：付款成功才叫一次购买问：代付款的话，购买行为计作购物人的还是代付人的？答：如果用支付宝代付功能，这个不是很确定，等确定了再答复。问：那如果有一个user，一次性买了n件商品（同一个brand），那么应该算是一次购买还是n次购买？答：如果是一次性购买n个不同的商品（同个brand），会产生n条购买记录。如果对同一个商品，分开购买n次(不同订单)，会产生n条购买记录。P.S. 点击不一样，只要有发生点击，则不论点击了多少商品或品牌，都记一次。问：对于一次购买（先加入购物车再购买），那么用户行为是否为“购买”，而没有“加入购物车”答：不会，“加入购物车”与“购买”是独立行为，所以是一次“加入购物车”+一次“购买”（可模拟一下淘宝购物流程，帮助理解）数据挖掘初阶问题解析首先，我们要确定待解决的问题映射到数据挖掘，具体会是怎么样一个问题。如果连自己要解决的是什么问题都不清楚，那就别提怎么解题了。根据官方描述，这次比赛要做的就是：根据用户4个月在天猫上对品牌的点击、收藏、购物车、购买等行为记录，预测第5个月哪些用户会购买哪些品牌。显然，根据所给赛题和数据，我们需要解决的是监督学习中的分类问题，而且是二分类问题——即要判定用户购买或未购买品牌。注意，这不是一个传统的推荐问题，因为数据是离线的，你提交的预测结果无法影响在线用户的决策；而且就所给字段来说（对象是brand，而且没有任何类目相关的信息），基本上只能在用户操作过的品牌里进行购买预测。对于推荐，XavierAmatriain有个比较总结性的阐述：/xamat/recommender-systems-machine-learning-summer-school-2014-cmu而数据挖掘项目里，所要研究的问题都会以样本为单位进行，分类问题里的类别标签则以样本在业务问题中的定义进行设置。那么显然，这次赛题里的样本由user_id和brand_id共同决定，就如同著名的鸢尾花数据集中代表每一个样本的行号那样，与其他样本区别开来。而样本的类别标签则由未来一个月中该用户是否购买该品牌决定，通常来说，用1表示有购买的正样本，而0表示未购买的负样本。训练集和测试集的划分与构建而分类问题中，模型需要经过训练集的学习，才能用于测试集，而训练集和测试集在形式上的区别在于前者有类别标签，后者则需要模型输出相应的类别标签。这里的问题是依据前4个月的用户操作记录预测第5个月的购买情况，所以通常来说，训练集的构建需要利用前3个月的数据，而其相应的类别标签，则来自于第4个月的购买情况；而测试集的构建则可用到4个月的完整数据。下面举个例子，用于解释训练集和测试集的具体表现形式。训练集样本示例测试集样本示例训练集样本示例中的user_id, brand_id用于表示唯一的样本id，而feature_1, feature_2则用前3个月的数据构建而来（绝对不能引入未来的数据，否则会影响模型走入歧途）。在这里继续展开一