使用R语言处理分析淘宝数据.docx

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
使用R语言处理分析淘宝数据

背景:某店主想知道自己行业对手(产品)的情况,想通过分析了解一些经营指标对于对手销量的影响等。于是决定使用R语言的rattle包处理淘宝数据。数据理解:通过技术手段将淘宝搜索销量排名的数据爬抓下来(共100页,4000条观测值),数据抓取下来就是以销量降序排序的。经过分析,决定进入分析模型的主要字段有:价格:有效数据=0.01(元),指折扣价(淘宝有原价和折扣价之分),是指卖家在原价基础上打折后的实际卖价;收藏量:有效数据=0,指某个宝贝被买家收藏的次数,收藏量越大代表买家对该宝贝有浓厚的兴趣;邮费:有效数据=0,指买家需要支付的运费,卖家可以决定是否包邮(包邮=邮费为0);30天成交量:有效数据=0,指某个宝贝30天内出售的件数;已评量:有效数据=0,指买家下单收货后,对该宝贝进行评价的次数;好评率:有效数据0-100%,卖家好评率=所有计分的卖家收到的好评数/所有计分的卖家收到的评价总数,这代表买家对其产品和服务综合的认可情况;描述分(宝贝与描述相符):有效数据1-5,DSR(动态评分)中的其中一个服务指标,由买家评价时自愿打分,最低1分,最高5分;服务分(卖家的服务态度):有效数据1-5,DSR(动态评分)中的其中一个服务指标,由买家评价时自愿打分,最低1分,最高5分;发货分(卖家发货的苏苏):有效数据1-5,DSR(动态评分)中的其中一个服务指标,由买家评价时自愿打分,最低1分,最高5分;平均退款速度:有效数据0-100%,当买家申请退款时,卖家退款给买家的时间间隔。此项为逆指标,越小越好;近30天退款率:有效数据=0,近30天退款率=近30天退款笔数/近30天所有交易笔数;近30天投诉率:有效数据0-100%,近30天投诉率=近30天内发起且成立的投诉笔数/近30天所有交易笔数;上架天数:有效数据=0,代表该宝贝上架的时间长短。数据准备:将数据导入R,并读入rattle进行数据挖掘。第一步:将数据导入R,放到“data”这个里面data-read.csv(淘宝搜索销量排名100页宝贝数据.csv,sep=,)复制代码第二步:启动rattleinstall.packages(rattle)复制代码第三步:在rattle中将数据读入数据,原本有4K条观测值,因为爬抓数据过程会有遗漏,因此经过筛选后,可能会排除很多缺失的观测值。?第四步:查看数据情况,只剩下2.8k条数据?输出结果13??Variables? ?? ?2800??Observations---------------------------------------------------------------------------------------------------------------------------------------------收藏量??n missing??unique? ? Mean? ???.05? ???.10? ???.25? ???.50? ???.75? ???.90? ???.95??2800? ?? ? 0? ? 1592? ? 1646? ? 43.0? ? 75.0? ?187.0? ?500.5??1498.2??3830.4??7002.3?lowest :? ???0? ???1? ???2? ???4? ???5, highest: 42130 50732 51482 66062 90043?---------------------------------------------------------------------------------------------------------------------------------------------价格??n missing??unique? ? Mean? ???.05? ???.10? ???.25? ???.50? ???.75? ???.90? ???.95??2799? ?? ? 1? ???858? ?73.32? ?2.677? ?5.000??15.000??29.900??98.010 188.002 257.352?lowest :? ? 0.01? ? 0.10? ? 0.20? ? 0.30? ? 0.72, highest:??967.00 1266.05 1530.00 1620.00 1730.16?---------------------------------------------------------------------------------------------------------------------------------------------邮费??n m

文档评论(0)

little28 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档