- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
使用R语言处理分析淘宝数据
背景:某店主想知道自己行业对手(产品)的情况,想通过分析了解一些经营指标对于对手销量的影响等。于是决定使用R语言的rattle包处理淘宝数据。数据理解:通过技术手段将淘宝搜索销量排名的数据爬抓下来(共100页,4000条观测值),数据抓取下来就是以销量降序排序的。经过分析,决定进入分析模型的主要字段有:价格:有效数据=0.01(元),指折扣价(淘宝有原价和折扣价之分),是指卖家在原价基础上打折后的实际卖价;收藏量:有效数据=0,指某个宝贝被买家收藏的次数,收藏量越大代表买家对该宝贝有浓厚的兴趣;邮费:有效数据=0,指买家需要支付的运费,卖家可以决定是否包邮(包邮=邮费为0);30天成交量:有效数据=0,指某个宝贝30天内出售的件数;已评量:有效数据=0,指买家下单收货后,对该宝贝进行评价的次数;好评率:有效数据0-100%,卖家好评率=所有计分的卖家收到的好评数/所有计分的卖家收到的评价总数,这代表买家对其产品和服务综合的认可情况;描述分(宝贝与描述相符):有效数据1-5,DSR(动态评分)中的其中一个服务指标,由买家评价时自愿打分,最低1分,最高5分;服务分(卖家的服务态度):有效数据1-5,DSR(动态评分)中的其中一个服务指标,由买家评价时自愿打分,最低1分,最高5分;发货分(卖家发货的苏苏):有效数据1-5,DSR(动态评分)中的其中一个服务指标,由买家评价时自愿打分,最低1分,最高5分;平均退款速度:有效数据0-100%,当买家申请退款时,卖家退款给买家的时间间隔。此项为逆指标,越小越好;近30天退款率:有效数据=0,近30天退款率=近30天退款笔数/近30天所有交易笔数;近30天投诉率:有效数据0-100%,近30天投诉率=近30天内发起且成立的投诉笔数/近30天所有交易笔数;上架天数:有效数据=0,代表该宝贝上架的时间长短。数据准备:将数据导入R,并读入rattle进行数据挖掘。第一步:将数据导入R,放到“data”这个里面data-read.csv(淘宝搜索销量排名100页宝贝数据.csv,sep=,)复制代码第二步:启动rattleinstall.packages(rattle)复制代码第三步:在rattle中将数据读入数据,原本有4K条观测值,因为爬抓数据过程会有遗漏,因此经过筛选后,可能会排除很多缺失的观测值。?第四步:查看数据情况,只剩下2.8k条数据?输出结果13??Variables? ?? ?2800??Observations---------------------------------------------------------------------------------------------------------------------------------------------收藏量??n missing??unique? ? Mean? ???.05? ???.10? ???.25? ???.50? ???.75? ???.90? ???.95??2800? ?? ? 0? ? 1592? ? 1646? ? 43.0? ? 75.0? ?187.0? ?500.5??1498.2??3830.4??7002.3?lowest :? ???0? ???1? ???2? ???4? ???5, highest: 42130 50732 51482 66062 90043?---------------------------------------------------------------------------------------------------------------------------------------------价格??n missing??unique? ? Mean? ???.05? ???.10? ???.25? ???.50? ???.75? ???.90? ???.95??2799? ?? ? 1? ???858? ?73.32? ?2.677? ?5.000??15.000??29.900??98.010 188.002 257.352?lowest :? ? 0.01? ? 0.10? ? 0.20? ? 0.30? ? 0.72, highest:??967.00 1266.05 1530.00 1620.00 1730.16?---------------------------------------------------------------------------------------------------------------------------------------------邮费??n m
您可能关注的文档
- 你所不知道的日本文化.pptx
- 教科版-科学-五年级-上册-种子发芽实验(二)重点.ppt
- 教科版三上复习资料重点.doc
- 教科版三年级上册《母爱的力量》PPT课件重点.ppt
- 教科版8年级上册2.3测量物体运动的速度(上课用)重点.ppt
- 你画我猜 题库九.pptx
- 第13章 配置路由访问服务器解析.ppt
- 教材 毕业设计指导书(框架结构设计)重点.doc
- 教科版三年级下册科学单元作业及答案重点.doc
- 你的父母怎样挣钱的.ppt
- 半导体材料性能提升技术突破与应用案例分析报告.docx
- 半导体设备国产化政策支持下的关键技术突破与应用前景报告.docx
- 剧本杀市场2025年区域扩张策略研究报告.docx
- 剧本杀行业2025人才培训体系构建中的市场需求与供给分析.docx
- 剧本杀行业2025年人才培训行业人才培养模式创新与探索.docx
- 剧本杀行业2025年内容创作人才需求报告.docx
- 剧本杀行业2025年区域市场区域剧本市场消费者满意度与市场竞争力研究报告.docx
- 剧本杀市场2025年区域竞争态势下的区域合作策略分析报告.docx
- 剧本杀行业2025人才培训与行业人才培养模式创新.docx
- 剧本杀行业剧本创作人才心理素质培养报告.docx
最近下载
- T_HNTI 030—2020_茶树种质资源考察收集技术规范.pdf VIP
- 报关原理与实务(第二版)(第5章)1进出口货物报关单填制.ppt VIP
- 2025年滨州市中考英语试题卷(含答案逐题解析).docx
- 基于能力培养的人工智能课程体系设计.docx
- Q/GDW1827-2013三相智能电能表技术规范.pdf VIP
- 国家中医药管理局发布的406种中医优势病种诊疗方案和临床路径目录.pptx VIP
- 华能国际电力股份有限公司本质安全体系管理手册.doc VIP
- 教育行业AI大模型设计方案【231页WORD】.docx VIP
- 2024医保物价培训.pptx VIP
- 屋顶光伏发电建设项目实施方案.docx
文档评论(0)