数据分析——异常数据识别.docVIP

  • 140
  • 0
  • 约4.39千字
  • 约 9页
  • 2021-09-15 发布于湖南
  • 举报
数据分析——异常数据识别 / 异常数据识别在数据分析和数据挖掘中,是经常会遇到的问题;本文会介绍不同场景下,异常数据识别的方法有哪些,以及他们之间的区别。 一、使用场景 当前异常数据识别的使用场景主要有以下2方面: 数据分析和数据挖掘在正式分析前的数据处理,识别异常数据后,删除或者修正异常数据,避免异常数据影响分析结论; 风控业务,通过数据识别异常用户、异常访问、异常订单、异常支付等,避免黑产团队入侵。 二、单变量数据异常识别 1. 简单统计量分析 对变量做描述性统计,然后再基于业务考虑哪些数据是不合理的。 常用的统计量是最大值和最小值,判断这个变量是否超过合理的范围;例如:用户的年龄为150岁,这就是异常的。 2. 三倍标准差 定义:如果单变量数据服从正态分布,异常值被定义为与平均值偏差超过3倍标准差的值。 原因:是因为在正态分布的假设下,偏离均值3倍标准差出现的概率小于0.003,是一个小概率事件。 在实际分析中,我们也不一定要拘泥于3倍标准差,可以根据实际严格程度定义,如偏离均值的4倍标准差。 3. BOX-COX转化+3倍标准差 如果原始数据的分布是有偏的,不满足正态分布时,可通过BOX-COX转化,在一定程度上修正分布的偏态;转换无需先验信息,但需要搜寻最优的参数λ。 Box-Cox变换的一般形式为: 式中y(lambda)为经Box-Cox变换后得到的新变量,y为原始连续因变量,lambda为变换参数。 以上变换要求原始变量y取值为正,若取值为负时,可先对所有原始数据同加一个常数a,使其(y+a)为正值,然后再进行以上的变换。 常见的lambda取值为0,0.5,-1;在lambda = 0 时该变换为对数变换,-1时为倒数变换,而0.5时为平方根变换。 Box-Cox的python实现如下,可直接通过函数boxcox找到最优的lambda和转化后的值: 4. 箱线图 箱形图(Box plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况的统计图。 它能显示出一组数据的最大值、最小值、中位数及上下四分位数; 箱线图提供了一种数据识别的标准:异常值通常被定义为小于下边缘或者大于上边缘的数据为异常值。 如下图所示: 上四分位数:1/4的样本值取值比他大 下四分位数:1/4的样本值取值比他小 上边缘=上四分位数+1.5*(上四分位数-下四分位数) 下边缘=下四分位数-1.5*(上四分位数-下四分位数) 箱线图识别异常数据的优势: 箱线图根据数据的真实分布绘制,他对数据不做任何限制性的要求,比如要服从正态分布等; 箱线图异常数据识别依赖于上四分数和下四分位数,因此异常值极其偏差不会影响异常值识别的上下边缘,这一点是优于3倍标准差方法的。 三、时间序列数据异常识别 日常工作中还有一种场景,是需要对时间序列数据进行监控,如:订单量、广告访问量、广告点击量;我们需要从时间维度识别出是否异常刷单、刷广告点击的问题;像广告投放场景下,如果发现渠道刷量,会及时停止广告投放,减少损失。 对于时间序列数据异常识别,根据数据不同的特点,识别方法不同。 1. 设置恒定阈值 如果时间序列呈现平稳分布状态,即时间序列数据围绕中心值小范围内波动;我们可以定义上下界的恒定阈值,如果超过上下阈值则定义为异常。 2. 设定动态阈值-移动平均法 所谓动态阈值是指,当前时间的异常阈值是由过去n段时间的时序数据计算决定的;通常对于无周期,比较平稳的时间序列,设定动态阈值的方法是移动平均法。 所谓移动平均法:就是用过去n个时间点的时序数据的平均值作为下一个时间点的时序数据的预测。 异常数据识别即是:确定固定移动窗口n,以过去n个窗口的指标平均值作为下一个窗口的预测值;以过去n个窗口的指标的平均值加减3倍方差作为监控的上下界。 使用范围:数据无周期性,数据比较平稳。 3. STL数据拆解法 如果时间序列数据是周期性数据,可使用STL算法将时序数据拆解成趋势项、周期项和余项,即每个时刻的时序数据等于当前时序趋势项、周期项和余项的和(或者乘)。 趋势项(T_v):涵盖了这个时序数据的趋势变化; 周期项(S_v):涵盖了时序数据的周期变化; 余项(R_v):表示时序数据除去趋势项和周期项后的日常波动变化。 一般使用STL需要确定2个点: 确定数据周期,外卖业务的一个常规周期为7天,在周一至周五又可以将数据周期缩短为1天。 拆分规则,是选择加法方式还是乘法方式。 加法方式:原始数据 = 平均季节数据 + 趋势数据 + 余项这种方式,随着时间的推移季节数据不会有太大的变化,在以七天为一大周期的业务数据更适合这样的拆分方式。 乘法方式:原始数据 = 平均季节数据 * 趋势数据 * 余项。 这种方式,直观感受是随着时间的推移季节数据波动会非常明显。 至

文档评论(0)

1亿VIP精品文档

相关文档