- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一、利用神经网络对数据进行欺诈探测
利用clementine系统提供的数据来进行挖掘,背景是关于农业发展贷款的申请。每一条
记录描述的是某一个农场对某种具体贷款类型的申请。本例主要考虑两种贷款类型:土
地开发贷款和退耕贷款。本例使用虚构的数据来说明如何使用神经网络来检测偏离常态
的行为,重点为标识那些异常和需要更深一步调查的记录。更要解决的问题是找出那些
就农场类型和大小来说申请贷款过多的农场主。
1. 定义数据源
使用一个 “变相文件”节点连接到数据集grantfraudN.db。在 “变相文件”节点之后增
加一个 “类型”节点到数据流中,双击 “类型”节点,打开该节点,观察其数据字段构
成,如图1-1所示。
图 1-1
2.理解数据
在建模之前,需要了解数据中有哪些字段,这些字段如何分布,它们之间是否隐含着某
种相关性信息。只有了解这些信息后才能决定使用哪些字段,应用何种挖掘算法和算法
参数。这个过程就是一个理解数据的过程。
3.准备数据
为了更直观的观察数据,以便于分析哪些数据节点有用,哪些数据对建模没用,可以使
用探索性的图形节点进行分析,这有助于形成一些对建模有用的假设。
首先考虑数据中有可能存在欺诈的类型,有一种可能是一个农场多次申请贷款援助,对
于多次的情况,假设在数据集上每个农场主有一个唯一的标识符,那么计算出每个标示
符出现的次数是件容易的事。
3.1
在数据流中连接条形图节点并选择字段名为name 的字段,如图1-2所示。
图 1-2
3.2
选择name字段后,单击执行按钮,结果如图1-3所示。为了探索其他可能的欺诈形式,
可以先不考虑多次申请的情况。先关注那些只申请一次的记录。
图 1-3
3.3
在数据流区域中添加一个选择节点,把该节点连接到数据流中,该节点的目的是为了删
除相应的记录。双击该节点,对该节点的设置如图 1-4。模式选择丢弃单选按钮、条件
文本框中输入”name==’name618’orname==’name777’”。
图 1-4
3.4
以农场大小、主要作物类型、土壤质量等为自变量建立一个回归模型来估计一个农场的
收入是多少。在建模以前,还需要添加一个导出节点,以便使用clem语言来生成一个
新的字段,如图 1-5所示,图中的表达式farmsize*rainfall*landquality是用来估计农场
收入的。导出字段为estincome。
图 1-5
3.5
为了发现那些偏离估计值的农场,可以生成一个字段-difi,代表估计值与实际值偏离饿
百分数。在数据流中增加一个导出节点,如图1-6所示。
图 1-6
3.6.流中增加一个直方图节点,目的是希望能由diff 的直方图中帮助发现偏离饿特征。
双击直方图节点,将直方图按照claimtype进行层叠,设置情况如图 1-7。
3.7.设置完成之后,单击 “执行”按钮,显示如图1-7所示。
图 1-7
8.从图1-8可以看出,所以较大的偏差都发生在arable_dev类型的申请上。因此我们可
以只选择arable_dv类贷款申请作为研究对象。为此,选择一个选择节点添加到导出节
点diff 的后面,使用clem表达式claimtype== ‘arable_dev ‘来进行筛选,设置如图1-8
所示。
图 1-8
三、建模
经过数据准备阶段,发现将真实值和通过一系列因变量的期望值进行比较似乎是有用
的。神经网络也可以用来处理此类问题。神经网络使用数据中的变量,对目标变量或响
应进行预测。使用预测的结果,我们可以探索偏离正常值的记录或记录组。
3.1
将一个类型节点添加到数据流中,对数据集中数据进行设置。因为需要用数据集中的变
量来预测所申请的贷款金额,所以将claimtype 的方向设置为输
您可能关注的文档
- PARKER-发电机.pdf
- 华中科技大学材料学科力学最新答案.pdf
- [摄影]低空摄影测量软件产品.pdf
- 2017年北师大考研参考资料.pdf
- 2018年考研数学1大纲及解析19考研.pdf
- 2016年天津南开大学802《电子综合基础》考研考试大纲考研真题解析考研参考书.pdf
- 2018年长春师范大学艺术类专业招生简讲.pdf
- 流体学Chp4532.pdf
- iphone6 中文指南.pdf
- 2017年深圳人才入户新政35岁以下大专学历可直接引进.pdf
- 人教新目标版英语九年级 中考模拟学情评估(三)(含答案).pdf
- 上海市风华中学2024-2025学年高三上学期9月阶段测试英语试题(无答案).pdf
- 统编版2024-2025学年语文六年级上册期末检测卷(有答案).pdf
- 人教新目标版英语九年级第二学期全册学情评估(含答案).pdf
- 内蒙古自治区巴彦淖尔市杭锦后旗第六中学2024-2025学年八年级上学期阶段性测试历史试题(解析版).pdf
- 湖南省娄底市涟源市部分学校2024-2025学年高一上学期9月月考语文试题 Word版无答案.pdf
- 湖南省衡阳市常宁市2023-2024学年七年级上学期期末考试英语试题.pdf
- 湖南省娄底市涟源市部分学校2024-2025学年高一上学期9月月考语文试题 Word版含解析.pdf
- 江苏省泰州市姜堰区城西实验学校2024-2025学年部编版九年级上学期月考历史试卷(原卷版).pdf
- 内蒙古伊金霍洛旗2022-2023学年七年级上学期期末考试英语试题.pdf
最近下载
- 第十一单元第二十一节德彪西教学课件-2021-2022学年高中音乐人音版必修音乐鉴赏.pptx
- 人教中图版(2019)信息技术必修2 1.2 认识信息社会 教案(表格式).docx
- 高性能低表面处理环氧涂料的制备和性能研究.docx VIP
- 永临结合及转换方案-投标200页简易版.docx
- 【语文】人教部编版语文八年级上册:古诗文理解性默写(完整版).pdf VIP
- 基本乐理音程介绍PPT课件.pptx
- GB_T27065-2015_合格评定产品、过程和服务认证机构要求.doc
- 环氧改性有机硅树脂低表面能涂料的研制.doc VIP
- 0~3岁婴幼儿心理发展与教育(高职)全套教学课件.pptx
- 语文一年级上册核心素养教案全册.pdf VIP
文档评论(0)