- 140
- 0
- 约4.39千字
- 约 9页
- 2021-09-15 发布于湖南
- 举报
数据分析——异常数据识别 /
异常数据识别在数据分析和数据挖掘中,是经常会遇到的问题;本文会介绍不同场景下,异常数据识别的方法有哪些,以及他们之间的区别。
一、使用场景
当前异常数据识别的使用场景主要有以下2方面:
数据分析和数据挖掘在正式分析前的数据处理,识别异常数据后,删除或者修正异常数据,避免异常数据影响分析结论;
风控业务,通过数据识别异常用户、异常访问、异常订单、异常支付等,避免黑产团队入侵。
二、单变量数据异常识别
1. 简单统计量分析
对变量做描述性统计,然后再基于业务考虑哪些数据是不合理的。
常用的统计量是最大值和最小值,判断这个变量是否超过合理的范围;例如:用户的年龄为150岁,这就是异常的。
2. 三倍标准差
定义:如果单变量数据服从正态分布,异常值被定义为与平均值偏差超过3倍标准差的值。
原因:是因为在正态分布的假设下,偏离均值3倍标准差出现的概率小于0.003,是一个小概率事件。
在实际分析中,我们也不一定要拘泥于3倍标准差,可以根据实际严格程度定义,如偏离均值的4倍标准差。
3. BOX-COX转化+3倍标准差
如果原始数据的分布是有偏的,不满足正态分布时,可通过BOX-COX转化,在一定程度上修正分布的偏态;转换无需先验信息,但需要搜寻最优的参数λ。
Box-Cox变换的一般形式为:
式中y(lambda)为经Box-Cox变换后得到的新变量,y为原始连续因变量,lambda为变换参数。
以上变换要求原始变量y取值为正,若取值为负时,可先对所有原始数据同加一个常数a,使其(y+a)为正值,然后再进行以上的变换。
常见的lambda取值为0,0.5,-1;在lambda = 0 时该变换为对数变换,-1时为倒数变换,而0.5时为平方根变换。
Box-Cox的python实现如下,可直接通过函数boxcox找到最优的lambda和转化后的值:
4. 箱线图
箱形图(Box plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况的统计图。
它能显示出一组数据的最大值、最小值、中位数及上下四分位数;
箱线图提供了一种数据识别的标准:异常值通常被定义为小于下边缘或者大于上边缘的数据为异常值。
如下图所示:
上四分位数:1/4的样本值取值比他大
下四分位数:1/4的样本值取值比他小
上边缘=上四分位数+1.5*(上四分位数-下四分位数)
下边缘=下四分位数-1.5*(上四分位数-下四分位数)
箱线图识别异常数据的优势:
箱线图根据数据的真实分布绘制,他对数据不做任何限制性的要求,比如要服从正态分布等;
箱线图异常数据识别依赖于上四分数和下四分位数,因此异常值极其偏差不会影响异常值识别的上下边缘,这一点是优于3倍标准差方法的。
三、时间序列数据异常识别
日常工作中还有一种场景,是需要对时间序列数据进行监控,如:订单量、广告访问量、广告点击量;我们需要从时间维度识别出是否异常刷单、刷广告点击的问题;像广告投放场景下,如果发现渠道刷量,会及时停止广告投放,减少损失。
对于时间序列数据异常识别,根据数据不同的特点,识别方法不同。
1. 设置恒定阈值
如果时间序列呈现平稳分布状态,即时间序列数据围绕中心值小范围内波动;我们可以定义上下界的恒定阈值,如果超过上下阈值则定义为异常。
2. 设定动态阈值-移动平均法
所谓动态阈值是指,当前时间的异常阈值是由过去n段时间的时序数据计算决定的;通常对于无周期,比较平稳的时间序列,设定动态阈值的方法是移动平均法。
所谓移动平均法:就是用过去n个时间点的时序数据的平均值作为下一个时间点的时序数据的预测。
异常数据识别即是:确定固定移动窗口n,以过去n个窗口的指标平均值作为下一个窗口的预测值;以过去n个窗口的指标的平均值加减3倍方差作为监控的上下界。
使用范围:数据无周期性,数据比较平稳。
3. STL数据拆解法
如果时间序列数据是周期性数据,可使用STL算法将时序数据拆解成趋势项、周期项和余项,即每个时刻的时序数据等于当前时序趋势项、周期项和余项的和(或者乘)。
趋势项(T_v):涵盖了这个时序数据的趋势变化;
周期项(S_v):涵盖了时序数据的周期变化;
余项(R_v):表示时序数据除去趋势项和周期项后的日常波动变化。
一般使用STL需要确定2个点:
确定数据周期,外卖业务的一个常规周期为7天,在周一至周五又可以将数据周期缩短为1天。
拆分规则,是选择加法方式还是乘法方式。
加法方式:原始数据 = 平均季节数据 + 趋势数据 + 余项这种方式,随着时间的推移季节数据不会有太大的变化,在以七天为一大周期的业务数据更适合这样的拆分方式。
乘法方式:原始数据 = 平均季节数据 * 趋势数据 * 余项。
这种方式,直观感受是随着时间的推移季节数据波动会非常明显。
至
您可能关注的文档
最近下载
- 第八章profibus-dp现场总线 100页.ppt VIP
- (外研版2026新教材)英语四年级下册新教材解读课件.pptx
- 公开课高中复习三角换元法.pptx VIP
- 2025年内科护理048副高题库试题附答案.docx VIP
- 低温空气源热泵及辅助热源复合系统在高原地区医院建筑的应用.pptx VIP
- 2025-2026学年小学信息技术(信息科技)三年级下册重大版(2023)教学设计合集.docx
- 小学语文阅读校本课教案(三年级).pdf VIP
- 【试卷】云南省曲靖市2025-2026学年八年级上学期期末考试生物试题.pdf VIP
- 智能财务导论 课件全套 陈俊 第1--12章 智能财务的发展 ---数智时代的会计伦理.pptx
- 150MW光伏发电项目工程EPC总承包投标文件-技术部分施工组织设计.docx VIP
原创力文档

文档评论(0)