侦查欺诈交易.ppt

下载文档 降价啦

4
0
约7.22千字
约 58页
2020-05-02 发布于天津
举报
版权申诉
保障服务

侦查欺诈交易.ppt

1、本文档共58页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据问题 ? 因为我们没有交易同时在这两个变量上有缺失值，所以每一个产品有了一个标准单价后，我们就可以用它来计算两个可能的缺失值（ Quant 和 Val ）。下面的代码将填补所有剩余的缺失值。 ? 然后重新计算 Uprice 列的值来填补先前未知的单位价格 ? 保存数据集 ? 数据问题 ? 有些产品只有极少的交易，因为太少的交易，在要求的统计学显著性下很难做出决定。这种情况下，考虑是否可以喝一些产品的交易一起分析来避免这个问题 ? 尽管缺失产品之间关系的信息，但可以尝试通过观察产品单价分部之间的相似性来推断其中的一些关系，如果可以发现具有类似价格的产品，我们可以考虑合并它们相应的交易并对它们一起进行分析，从而找到异常值 ? 比较两个分布的一种方法是可视化检查法（在此不可行）；另一种是比较总结分布的一些统计特性。 ? 连续变量分布的两个重要属性是集中趋势和离散趋势 ? 这里使用中位数作为衡量中心的统计量，应用四分位距（ IQR ）作为离散指标的统计量更有意义数据问题 ? 上面的代码使用函数 boxplot() 获得中位数、第一个四分位数和第三个四分位数。对每个产品的所有交易，计算这些统计量，从分析中剔除有欺诈的交易。有了这些统计量以后，得到含有每个产品的中位数和四分位距的一个矩阵 ? 数据问题 ? 根据每个产品的中位数和 IQR 绘制的图形 par(mfrow=c(1,2)) ? plot(ms[,1],ms[,2],xlab=Median,ylab=IQR,main=) ? 汰瑯洨孳??獭?崲砬慬??敍楤湡?礬慬??光??慭湩???潣??牧祥?氬杯尽祸? ? smalls - which(table(Prod) 20) ? points(log(ms[smalls,1]),log(ms[smalls,2]),pch=+) 数据问题 ? 对于交易数量少于 20 的产品，我们将寻找与它的单位价格分布最相似的产品，然后用 Kolmogorow-Smirnov 检验来检查两个产品是否在统计意义上相似。 ? 下面的代码用来获得一个矩阵（ similar ）。矩阵中存储的事这种少于 20 个交易的每个产品的检查信息，用对象 ms 来保存前面获得的每个产品的单位价格的中位数和 IQR 数据问题 ? dms - scale(ms) ? smalls - which(table(Prod) 20) ? prods - tapply(sales$Uprice,sales$Prod,list) ? similar - matrix(NA,length(smalls),7,dimnames=list(names(smalls), ? c(Simil,ks.stat,ks.p,medP,iqrP,medS,iqrS))) ? ? for(i in seq(along=smalls)) { ? d - scale(dms,dms[smalls[i],],FALSE) ? d - sqrt(drop(d^2 %*% rep(1,ncol(d)))) ? stat - ks.test(prods[[smalls[i]]],prods[[order(d)[2]]]) ? similar[i,] - c(order(d)[2],stat$statistic,stat$p.value,ms[smalls[i],], ? ms[order(d)[2],]) ? } ? head(similar) 数据问题 ? 矩阵 similar 对象的前几行数据问题 ? 用下面的代码得到矩阵 similar 前几行相应产品的 ID ： ? levels(Prod)[similar[1,1]] ? 在 90% 的显著水平下，我们可以检查单位价格分布有相似性的产品的数量： ? nrow(similar[similar[,ks.p] = 0.9,]) ? 或者是 ? sum(similar[,ks.p] = 0.9) ? 保存 similar 对象 ? save(similar,file=similarProducts.Rdata) 定义数据挖掘任务 ? 有些交易报告被强烈怀疑为欺诈交易，这个应用程序的主要目的是运用数据挖掘工具，为确定是否核查这些交易提供指导。由于可用于该检查任务的资源师有限的并且是变化的，因此这个指导应该以欺诈概率排序的形式给出问题的不同解决方法 ? 主要问题是大多数可用的报告没有被检验 ? 从确定已有报告是否为欺诈的任务角度来看，变量 Insp 中的 unkn 值和缺失值的意义是一样的。这个值代表缺少这笔交易是 OK 还是欺诈信息。 ? 也就是说，我们的数据集有两种