- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Python程序设计与实践大作业实验报告陆阳孙勇裘升明
浙江工商大学计算机与信息工程学院
《Python程序设计与实践》大作业报告
专 业: 计科
班 级: 1404
学 号:1412190416、1412190415、1412190413
姓 名: 陆阳,孙勇,裘昇明
指导教师: 蒲飞
2015 年 6 月 28 日
题目介绍:
U——用户集合I——商品全集P——商品子集,P???ID——用户对商品全集的行为数据集合那么我们的目标是利用D来构造U中用户对P中商品的推荐模型。
竞赛数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据(D),表名为tianchi_mobile_recommend_train_user,包含如下字段:
字段 字段说明 提取说明 ?user_id ?用户标识 ?抽样字段脱敏 ?item_id ?商品标识 ?字段脱敏 ?behavior_type? ?用户对商品的行为类型 ?包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4。 ?user_geohash ?用户位置的空间标识,可以为空 ?由经纬度通过保密的算法生成 item_category 商品分类标识 字段脱敏 time 行为时间 精确到小时级别
第二个部分是商品子集(P),表名为tianchi_mobile_recommend_train_item,包含如下字段:
字段 字段说明 提取说明 ?item_id ?商品标识 ?抽样字段脱敏 ?item_ geohash ?商品位置的空间标识,可以为空 ?由经纬度通过保密的算法生成 ?item_category? ?商品分类标识 ?字段脱敏
训练数据包含了抽样出来的一定量用户在一个月时间(11.18~12.18)?
大作业报告内容包括以下几个部分
1、数据分组统计:
可统计有多少用户、商品、商品类信息,甚至每天的统计数:
还有,在给出的用户行为数据中,有些用户在整个-18日至12-18日对商品有,但是过购买行为用户会否在购买商品实难预测,,我们去除无购买行为的用户信息这些用户在不会购买任何商品。
关键代码
2、数据预处理
重新整理时间
重新整理数据的时间,也就是Time字段,在数据统计分组中也提到过,数据集划分,0-30天,以天为单位,即time为的time为以此类推
贴关键代码
划分训练集和测试集
在分类问题中,模型需要经过训练集的学习,才能用于测试集,而训练集和测试集在形式上的区别在于前者有类别标签,后者则需要模型输出相应的类别标签。这里的问题是依据31天的用户操作记录预测第32天的购买情况,所以通常来说,训练集的构建需要利用31天的数据,而其相应的类别标签如何标注在训练集中?与你如何划分训练集和测试集有关31天的完整数据。下面举个例子,用于解释训练集和测试集的具体表现形式。
训练集样本示例
测试集样本示例
训练集样本示例中的user_id, brand_id(item_id)1天的数据构建而来。本次比赛中,我们划分训练集和测试集所用的分割日期是每10天。第0-9天为一个训练集,用第的数据给添加类别标签。-10天为一个训练集,用第的数据给-10天数据添加类别标签类推,…,是-29天为一个训练集,用第的数据给-29天数据添加类别标签为第-30天的数据。
贴关键代码
平衡正负样本
正负样本比例需从~1:20之间。
贴关键代码
3、特征提取
特征提取在数据挖掘中很重要
我们知道,在给模型输入数据的时候,实际上模型用到的都是特征(及其对应的类别标签),而特征就是用于描述为什么该样本的类别标签就是如此,在本赛题中即用于描述某用户为什么购买/不购买某商品。比如,用户购买某商品的原因,是因为以前经常买,信得过,那么这里可以用“用户购买该商品的天数/用户访问该商品的天数”来刻画用户对该品牌的忠诚度。当然,并不是单一的特征就能描述所有情况,通常来说,需要针对所有可能的情形进行考虑,从而深刻而全面地刻画用户购买/不购买商品的原因。这样,模型才能真正学到其中的规律,从而在测试集表现优异。而这一过程,就称之为特征工程。显然,要做好特征工程,需要我们自身对“用户会否购买商品”这一业务具有较深刻的理解,即领域知识,并将其用模型可理解的方式表现出来,如何抽取特征?1、统计用户在31天中的购买量、点击量、收藏量、加购物车次数、有操作记录的
您可能关注的文档
- ps工具使用入门教程..doc
- PS建筑效果图的后期处理..doc
- PS扣树的方法..doc
- PS教程手把手教你快速实现德罗斯特效应.docx
- proverb谚语..doc
- ps必考知识点总结(二)..docx
- PS滤镜集合介绍..doc
- PS经典教程超级详细Photoshop经典实例教程3000例..doc
- PS聚苯乙烯塑料..doc
- ps计算机二级考试选择题第一套..doc
- 2022年江苏省南京市秦淮区物理八上期末综合测试模拟试题含解析.pdf
- 2023年贵州省毕节市黔西市素朴镇大坝村(社区工作人员)自考复习100题模拟.pdf
- 2023学年九年级化学第一学期期末检测模拟试题含解析 .pdf
- 2023年新高考卷仿真模拟卷语文试题及参考答案 .pdf
- 2023年《祖国啊我亲爱的祖国》语文教案 .pdf
- 2022年安徽省滁州市公开招聘消防员模拟三笔试卷含答案 .pdf
- 2022届广东省中考联考物理试题含解析 .pdf
- 2022年广东省中考物理试卷原卷附解析 .pdf
- 2023年吉林省通化市通化县西江镇民生村社区工作人员考试模拟题及.pdf
- 2022年黑龙江省大兴安岭地区普通高校对口单招医学综合自考测试卷(含.pdf
文档评论(0)