- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据问题 ? 因为我们没有交易同时在这两个变量上有缺失值, 所以每一个产品有了一个标准单价后,我们就可以 用它来计算两个可能的缺失值( Quant 和 Val )。下 面的代码将填补所有剩余的缺失值。 ? 然后重新计算 Uprice 列的值来填补先前未知的单位 价格 ? 保存数据集 ? 数据问题 ? 有些产品只有极少的交易,因为太少的交易,在要求的 统计学显著性下很难做出决定。这种情况下,考虑是否 可以喝一些产品的交易一起分析来避免这个问题 ? 尽管缺失产品之间关系的信息,但可以尝试通过观察产 品单价分部之间的相似性来推断其中的一些关系,如果 可以发现具有类似价格的产品,我们可以考虑合并它们 相应的交易并对它们一起进行分析,从而找到异常值 ? 比较两个分布的一种方法是可视化检查法(在此不可 行);另一种是比较总结分布的一些统计特性。 ? 连续变量分布 的两个重要属性是 集中趋势 和 离散趋势 ? 这里使用中位数作为衡量中心的统计量,应用四分位距 ( IQR )作为离散指标的统计量更有意义 数据问题 ? 上面的代码使用函数 boxplot() 获得中位数、第一个 四分位数和第三个四分位数。对每个产品的所有交 易,计算这些统计量,从分析中剔除有欺诈的交易。 有了这些统计量以后,得到含有每个产品的中位数 和四分位距的一个矩阵 ? 数据问题 ? 根据每个产品的中位数和 IQR 绘制的图形 par(mfrow=c(1,2)) ? plot(ms[,1],ms[,2],xlab=Median,ylab=IQR,main=) ? 汰瑯洨孳??獭?崲砬慬??敍楤湡?礬慬??光??慭湩???潣??牧祥?氬杯尽祸? ? smalls - which(table(Prod) 20) ? points(log(ms[smalls,1]),log(ms[smalls,2]),pch=+) 数据问题 ? 对于交易数量少于 20 的产品,我们将寻找 与它的单位价格分布最相似的产品,然后 用 Kolmogorow-Smirnov 检验来检查两个产品 是否在统计意义上相似。 ? 下面的代码用来获得一个矩阵( similar )。 矩阵中存储的事这种少于 20 个交易的每个 产品的检查信息,用对象 ms 来保存前面获 得的每个产品的单位价格的中位数和 IQR 数据问题 ? dms - scale(ms) ? smalls - which(table(Prod) 20) ? prods - tapply(sales$Uprice,sales$Prod,list) ? similar - matrix(NA,length(smalls),7,dimnames=list(names(smalls), ? c(Simil,ks.stat,ks.p,medP,iqrP,medS,iqrS))) ? ? for(i in seq(along=smalls)) { ? d - scale(dms,dms[smalls[i],],FALSE) ? d - sqrt(drop(d^2 %*% rep(1,ncol(d)))) ? stat - ks.test(prods[[smalls[i]]],prods[[order(d)[2]]]) ? similar[i,] - c(order(d)[2],stat$statistic,stat$p.value,ms[smalls[i],], ? ms[order(d)[2],]) ? } ? head(similar) 数据问题 ? 矩阵 similar 对象的前几行 数据问题 ? 用下面的代码得到矩阵 similar 前几行相应产品 的 ID : ? levels(Prod)[similar[1,1]] ? 在 90% 的显著水平下,我们可以检查单位价格 分布有相似性的产品的数量: ? nrow(similar[similar[,ks.p] = 0.9,]) ? 或者是 ? sum(similar[,ks.p] = 0.9) ? 保存 similar 对象 ? save(similar,file=similarProducts.Rdata) 定义数据挖掘任务 ? 有些交易报告被强烈怀疑为欺诈交易,这 个应用程序的主要目的是运用数据挖掘工 具,为确定是否核查这些交易提供指导。 由于可用于该检查任务的资源师有限的并 且是变化的,因此这个指导应该以欺诈概 率排序的形式给出 问题的不同解决方法 ? 主要问题是大多数可用的报告没有被检验 ? 从确定已有报告是否为欺诈的任务角度来看, 变量 Insp 中的 unkn 值和缺失值的意义是一样的。 这个值代表缺少这笔交易是 OK 还是欺诈信息。 ? 也就是说,我们的数据集有两种
文档评论(0)