- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
购买更多正版更新的资料只能加QQ1820937853咨询,正版资料盗卖必究法律刑事责任
什么是数据分析里面的异常检测
异常检测也叫孤立点检测,或离群点检测。
如我前文所说,我们天天监控店铺数据,目的就是为了发现异常并及时预警,如果一切正常,那咱们就啥事儿都没有。万一有异常数据出现,那我们就要做进一步的分析,找出导致异常的罪魁祸首。
异常检测,操作和观测起来异常简单,用箱线图或者散点图即可。
大家看下图,是某行业按销量排名前4004个宝贝的价格散点图。非常明显,有一个孤立点,居然卖12W+。
当我们发现这种孤立点的时候,必须要考虑的是:
1、这个数据是否有误?
2、如果数据无误,是什么原因?
辨别是否有误,就需要调出源数据进行检查。这个相当简单,只要做核对,以及根据逻辑和常理来判别即可。但也有无法判定的情况。
我们先说第一个情况。如果我们判断是数据出错,而我们又无法拿到正确的数据,此时我们就需要对这个异常值进行处理。
异常值(数据有误的情况下)处理的方法:
1、更正。2、删除。3、替换。
下面是通过生e经下载下来的数据,共有325行数据。
对成交量、销售额、高质宝贝数分别作出散点图(我是做演示说明,不要再跟我纠结这个数据准不准等问题了)
销售额这里明显有一个孤立点。如果我们不处理这个孤立点的话,可能会影响我们后续的分析结果。
可以直接定位到这个点的位置,在散点图看一下,是在第77个点,那马上就可以定位到excel的第78行。
经过筛选,可以直接拿出毛衣这组数据。
(为什么散点图是第77个点,而excel中是第78行?这个问题其实之前一直有人问我。但如果阅读到这一篇,还不能独立思考这个问题的话,那请先回过头去看前面的7篇)
?
经过和生e经的数据对比,这个数据没有错,生e经上面就是这个数据。但是根据逻辑和常识,可以立马判定这个数据是个错误值。
?
“为什么能立马判定这个是错误值?”如果不明白的话还是自己想啊,哈哈。
?
确定这个数据是个错误值后,我们也无法更正这个数据了。那要如何处理这个数据呢?已经无法更正了,就剩余两个方法:1、删除。2、替换。
?
删除的话,这里不适用。一删就少了一个月的数据了。那这里就用替换。
?
怎么替换?那方法就多的去了。最简单的方法是用平均值替换法,平均值替换也有多种技巧。
?
方法1、取这个值的前后两个数据的平均值,也就是(935086015+894448225)/2=914767120,用这个数字来替换,就要比之前的靠谱多了。
?
方法2、先剔除错误行,然后算出平均售价,用平均售价乘以错误行的成交量即可。算得173*5292179=915546967
?
理论上面来讲应该是方法2比较准确一点。我就用方法2替换这个错误值。替换后的散点图如下。
异常值就不见了,我们就可以对这组数据做分析了。
================================================================
这里介绍下数据挖掘套件的功能,数据准备——清除数据——离群值
?
这个功能也是为了避免数据有误,导致分析结果偏离的问题。
?
一般操作中,拿到数据,都必须要分析下是否有孤立点,因为孤立点不处理就会影响我们的分析结果。
可以选择是要对那一列数据做离群值处理
设定阈值,我们可以通过拖动下面的指示条或者手动输入阈值的方式,来指定
效果如下,被划线填充的部分就是我们界定的孤立点。这部分数据将会被处理
选择处理方法。这个就根据业务场景来确定的。如果可以删就删,不能删,就可以指定范围更改,或者用平均值。
这个就更加方便一点,方法也可以给我们选择。一般操作中在数据样本少的时候一般是不能删除的,只有数据样本大的时候才可以考虑删除。
?
===================================================================
?
另一种情况,如果这个孤立点不是错误值呢?也就是数据无误,那这个时候,我们就要深入分析了。
?
看下面这个案例吧!虽然特别简单,但可以表达清楚即可。
?
?某店的销售额,每天记录下来,通过观察即可发现(如果是淘宝,数据魔方,生e经等工具都有这个数据的,在网上就可以看到)
?
发现18号销售额突然下降。依然是先判别是否错误值。判别无误。
数据无错的情况下,我们要找原因(这个案例真心太简单,将就着吧)
第一步是分解指标,找到关键指标。
通过分解销售额=客单价X转化率X访客数
?
这时,我们需要检查的就是这三个指标。
?
客单价目测没有问题。
转化率非常明显,在18号有一个最小值。
访客数在8号居然是有升无减。。那锁定转化率的问题。
事情还没完。。我们接着分解转化率。
最终只要细细看下这些转化率指标即可。当然也可以想办法把指标分得更细,再观察
您可能关注的文档
最近下载
- 重型车辆事故救援培训.pptx
- 六年级家长会方案最新.pdf VIP
- 久保田D722发动机零件图册.pdf VIP
- 美国《先进制造业国家战略》(英)(202210).pdf VIP
- 中文学科论文写作(第三版)卢卓群-第四章.pptx VIP
- 《水浒传》导读封面+第一周任务卡.docx VIP
- 《工业机器人系统操作与运维》 课件 第31-32讲-点焊机器人.ppt
- 北大荒精神专题讲座党史学习教育课件.pptx VIP
- 2024年关于安全生产重要论述PPT课件.ppt VIP
- Find_My_Network_Accessory_Specification__Developer_Preview_R3-高清版操作说明.pdf VIP
文档评论(0)