侦测欺诈交易.docxVIP

  • 140
  • 0
  • 约 33页
  • 2017-06-27 发布于湖北
  • 举报
侦测欺诈交易

R实训论文年级14级班级04班学号20140404430姓名王增飞提交日期2017.5.12侦测欺诈交易(王增飞吕梁学院吕梁033000)摘要考虑到在经济和社会领域中经常存在欺诈交易等非法活动,因此欺诈拉验是数据挖粼技术的一个重要应用领域。从数据分析的角度,欺诈行为通常和异常的观测值相关联,因为这些欺诈行为是偏离常规的。在多个数据分析领域,这些偏离常规的行为经常成为离群值.数据挖翻的结果有助于公司的事后检查活动,能够提供某种欺诈概率排序作为输出结果,可以使公司以最佳方式来利用其事后检查资源。关键词缺失值填补 决策精确度 回朔精确度 半监督技术scams(WangLvliangXueyuanLvliang033000)AbstractThe fraud is an important area of application for data mining, given that there are often illegal activities such as fraudulent transactions in the economic and social sectors. From the point of view of data analysis, fraud is often associated with the observed value of an exception, as these are deviations from the norm. In the field of multiple data analysis, the deviation from normal behavior often become outliers. Data dig results help the company post-mortem activity, can provide some kind of fraud probability sorting as output, can make the company in the best way to use the post-mortem resources.Key Missing value fillDecision-making accuracyBack to new moon accuracyA semi-supervised technology引言侦测欺诈交易的目的是找到“奇怪的”交易记录报告,它可能指出某些销售员涉嫌欺诈.这里用的数据是一个较短时期内的销售数据,销售员可按照ti己的策略和公司情况来自由设置梢售价格。我们的日的是根据公司过去发现的交易报告中的错误和欺诈企图,帮助公司完成核实这些悄售报告真实性的工作。1 目标任务 根据公司过去发现的交易报告中的错误和欺诈企图,帮助公司完成核实这些销售报告真实性的工作。我们提供一份欺诈率排名的报告,这个欺诈率排名将允许公司把有限的检验资源分配给系统所提示的更“可疑”的那些报告。2 数据来源load(sales.Rdata)将从这个文件中把数据载入到一个名为sale的数据框library(DMwR)data(sales)使用本书添加包中的数据得到了名为sale的数据框,里面存的是下面将会用到的数据3 数据探索性分析3.1 探索数据集使用summary函数,了解数据的统计特征ID:说明销售员ID的一个因子变量。??Prod:说明销售产品ID号的一个因子变量。?Quant:报告该产品销售的数量。?Val:报告销售记录的总价值。??Insp:有3个可能值的因子变量——ok表示公司检查了该交易并认为该交易有效;fraud表示发现该交易为欺诈;unkn表示该交易未经过公司审核。进一步使用nlevels函数发现数据中包含大量的产品和销售人员的信息从数据的统计特征初步可以看出v431号雇员录入的数据最多,p1125号产品卖出最多,可以看到产品销售的数量和总价值的四分位数据,公司已检查承认有效的数据有14462,已发现欺诈的数据有1270,未经过审查的有385414,说明大量数据还未经过审核,需要接下来的数据分析来检查其中的欺诈数据。3.1.3.使用Length函数计算总数据中有多少缺失数据可以看到这样的数据有888条,在40万组数据中可以忽略不计。应该注意当数据量特别大时,改用summary函数在统计过的销售记录中,根据以上的数据结果可以看出,交易有效的是3%,交易欺诈的是0.31%,未经审核的是96%,说明欺诈比例比较小。每个交易人员的交易数量如图3-1。图 3-1每个产品的交易数量如图3-2。图3-2结合两张图可以看到:所有销售人员的数据相当不同,对于每个产品,波动性较大,所以,下面需要对不同的产品分别进行处理

文档评论(0)

1亿VIP精品文档

相关文档