Python程序设计与实践大作业实验报告陆阳孙勇裘升明.doc

Python程序设计与实践大作业实验报告陆阳孙勇裘升明.doc

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Python程序设计与实践大作业实验报告陆阳孙勇裘升明

浙江工商大学计算机与信息工程学院 《Python程序设计与实践》大作业报告 专 业: 计科 班 级: 1404 学 号:1412190416、1412190415、1412190413 姓 名: 陆阳,孙勇,裘昇明 指导教师: 蒲飞 2015 年 6 月 28 日 题目介绍: U——用户集合 I——商品全集 P——商品子集,P???I D——用户对商品全集的行为数据集合 那么我们的目标是利用D来构造U中用户对P中商品的推荐模型。 竞赛数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据(D),表名为tianchi_mobile_recommend_train_user,包含如下字段: 字段 字段说明 提取说明 ?user_id ?用户标识 ?抽样字段脱敏 ?item_id ?商品标识 ?字段脱敏 ?behavior_type? ?用户对商品的行为类型 ?包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4。 ?user_geohash ?用户位置的空间标识,可以为空 ?由经纬度通过保密的算法生成 item_category 商品分类标识 字段脱敏 time 行为时间 精确到小时级别 第二个部分是商品子集(P),表名为tianchi_mobile_recommend_train_item,包含如下字段: 字段 字段说明 提取说明 ?item_id ?商品标识 ?抽样字段脱敏 ?item_ geohash ?商品位置的空间标识,可以为空 ?由经纬度通过保密的算法生成 ?item_category? ?商品分类标识 ?字段脱敏 训练数据包含了抽样出来的一定量用户在一个月时间(11.18~12.18)? 大作业报告内容包括以下几个部分 1、数据分组统计: 可统计有多少用户、商品、商品类信息,甚至每天的统计数: 还有,在给出的用户行为数据中,有些用户在整个-18日至12-18日对商品有,但是过购买行为用户会否在购买商品实难预测,,我们去除无购买行为的用户信息这些用户在不会购买任何商品。 关键代码 2、数据预处理 重新整理时间 重新整理数据的时间,也就是Time字段,在数据统计分组中也提到过,数据集划分,0-30天,以天为单位,即time为的time为以此类推 贴关键代码 划分训练集和测试集 在分类问题中,模型需要经过训练集的学习,才能用于测试集,而训练集和测试集在形式上的区别在于前者有类别标签,后者则需要模型输出相应的类别标签。这里的问题是依据31天的用户操作记录预测第32天的购买情况,所以通常来说,训练集的构建需要利用31天的数据,而其相应的类别标签如何标注在训练集中?与你如何划分训练集和测试集有关31天的完整数据。下面举个例子,用于解释训练集和测试集的具体表现形式。 训练集样本示例 测试集样本示例 训练集样本示例中的user_id, brand_id(item_id)1天的数据构建而来。本次比赛中,我们划分训练集和测试集所用的分割日期是每10天。第0-9天为一个训练集,用第的数据给添加类别标签。-10天为一个训练集,用第的数据给-10天数据添加类别标签类推,…,是-29天为一个训练集,用第的数据给-29天数据添加类别标签为第-30天的数据。 贴关键代码 平衡正负样本 正负样本比例需从~1:20之间。 贴关键代码 3、特征提取 特征提取在数据挖掘中很重要 我们知道,在给模型输入数据的时候,实际上模型用到的都是特征(及其对应的类别标签),而特征就是用于描述为什么该样本的类别标签就是如此,在本赛题中即用于描述某用户为什么购买/不购买某商品。比如,用户购买某商品的原因,是因为以前经常买,信得过,那么这里可以用“用户购买该商品的天数/用户访问该商品的天数”来刻画用户对该品牌的忠诚度。当然,并不是单一的特征就能描述所有情况,通常来说,需要针对所有可能的情形进行考虑,从而深刻而全面地刻画用户购买/不购买商品的原因。这样,模型才能真正学到其中的规律,从而在测试集表现优异。而这一过程,就称之为特征工程。显然,要做好特征工程,需要我们自身对“用户会否购买商品”这一业务具有较深刻的理解,即领域知识,并将其用模型可理解的方式表现出来,如何抽取特征?1、统计用户在31天中的购买量、点击量、收藏量、加购物车次数、有操作记录的

文档评论(0)

kaiss + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档