- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
分析流程
数据源:
CardFraud(1).xlsx
算法配置:
算法:正态性校验
分析结果:
暂无数据
分析步骤
1.对数据进行Shapiro-Wilk(小数据样本,一般样本数5000以下)或者Kolmogorov–Smirnov(大数据样本,一般样本数5000以上)检验,查看其显著性。
2.若不呈现出显著性(P0.05),说明符合正态分布,反之说明不符合正态分布(PS:通常现实研究情况下很难满足检验,若其样本峰度绝对值小于10并且偏度绝对值小于3,结合正态分布直方图、PP图或者QQ图可以描述为基本符合正态分布)。
详细结论
输出结果1:总体描述结果
变量名
样本量
中位数
平均值
标准差
偏度
峰度
S-W检验
K-S检验
Distance1
10000
10.027
26.375
58.811
10.189
204.713
0.381(0.000***)
0.327(0)
Distance2
10000
1.006
4.807
22.26
23.457
762.94
0.15(0.000***)
0.415(0)
Ratio
10000
1.006
1.824
2.762
6.819
91.145
0.521(0.000***)
0.258(0)
Repeat
10000
1
0.879
0.326
-2.325
3.404
0.381(0.000***)
0.524(0)
Card
10000
0
0.351
0.477
0.625
-1.609
0.603(0.000***)
0.418(0)
Pin
10000
0
0.105
0.306
2.581
4.662
0.351(0.000***)
0.529(0)
Online
10000
1
0.641
0.48
-0.59
-1.652
0.607(0.000***)
0.414(0)
注:***、**、*分别代表1%、5%、10%的显著性水平
图表说明:
上表展示了Distance1、Distance2、Ratio、Repeat、Card、Pin、Online描述性统计和正态性检验的结果,包括中位数、平均值等,用于检验数据的正态性。
1.通常正态分布的检验方法有两种,一种是Shapiro-Wilk检验,适用于小样本资料(样本量≤5000);另一种是Kolmogorov–Smirnov检验,适用于大样本资料(样本量5000)。
2.若呈现显著性(P0.05),则说明拒绝原假设(数据符合正态分布),该数据不满足正态分布,反之则说明该数据满足正态分布。
PS:通常现实研究情况下很难满足检验,若其样本峰度绝对值小于10并且偏度绝对值小于3,结合正态分布直方图、PP图或者QQ图可以描述为基本符合正态分布。
智能分析
分析项:Distance1样本N=5000,采用K-S检验,显著性P值为0.000***,水平呈现显著性,拒绝原假设,因此数据不满足正态分布。(其峰度(204.713)绝对值大于10并且偏度(10.189)绝对值大于3,可以结合正态分布直方图、PP图或者QQ图进行进一步分析。)
分析项:Distance2样本N=5000,采用K-S检验,显著性P值为0.000***,水平呈现显著性,拒绝原假设,因此数据不满足正态分布。(其峰度(762.94)绝对值大于10并且偏度(23.457)绝对值大于3,可以结合正态分布直方图、PP图或者QQ图进行进一步分析。)
分析项:Ratio样本N=5000,采用K-S检验,显著性P值为0.000***,水平呈现显著性,拒绝原假设,因此数据不满足正态分布。(其峰度(91.145)绝对值大于10并且偏度(6.819)绝对值大于3,可以结合正态分布直方图、PP图或者QQ图进行进一步分析。)
分析项:Repeat样本N=5000,采用K-S检验,显著性P值为0.000***,水平呈现显著性,拒绝原假设,因此数据不满足正态分布。(其峰度(3.404)绝对值小于10并且偏度(-2.325)绝对值小于3,可以结合正态分布直方图、PP图或者QQ图进行进一步分析。)
分析项:Card样本N=5000,采用K-S检验,显著性P值为0.000***,水平呈现显著性,拒绝原假设,因此数据不满足正态分布。(其峰度(-1.609)绝对值小于10并且偏度(0.625)绝对值小于3,可以结合正态分布直方图、PP图或者QQ图进行进一步分析。)
分析项:Pin样本N=5000,采用K-S检验,显著性P值为0.000***,水平呈现显著性,拒绝原假设,因此数据不满足正态分布。(其峰度(4.662)绝对值小于10并且偏度(2.581)绝对值小于3,可以结合正态分布直方图、PP图或者QQ图进行进一步分析。
文档评论(0)