贝叶斯网络预测信用卡欺诈行为 - 数说工作室.docVIP

下载本文档

21
0
约2.51千字
约 6页
2017-09-03 发布于天津
举报
版权申诉

贝叶斯网络预测信用卡欺诈行为 - 数说工作室.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

贝叶斯网络预测信用卡欺诈行为 - 数说工作室

贝叶斯网络预测信用卡欺诈行为 ——贝叶斯网络应用（1）一、理论说明 1．贝叶斯网络的应用使用贝叶斯网络，可以通过将观察到并记录下的与实际常识结合起来构建概率模型，以通过使用表面看上去不相关的属性确定发生的可能性贝叶斯分类模型继承了贝叶斯网络的优点并具有良好的分类精度，正受到越来越多的关注，并广泛的应用在欺诈识别、客户管理、医学诊断上、互联网搜索上，比如，利用贝叶斯分类模型建立客户的等级分类，如信用等级、忠诚等级，当新客户出现时，即可以按该分类模型对其等级情况做出分类预测。又比如本文所例举的，根据信用卡用户的信用记录及相关信息建立用户的信用模型，并监测哪些用户会做出贷款拖欠的行为。 2．贝叶斯网络模型（1）贝叶斯原理统计学分成两派，一派是传统的频率学派，一派是贝叶斯派，能够在统计学界自成一派，可见其影响。贝叶斯的核心思想在于一个公式 P(A|X)=P(X|A)·P(A)/P(X) 其中A是随机变量，X是数据，P(X|A)是似然，P(A)是先验分布，P(A|X)是后验分布，P(X)是一个数。这个公式的意义在于，我们可以通过一个经验的概率，加上数据的实践，来得出一个后验的概率，也就是说“经验+数据=结果”。那么将这个原理用在贝叶斯网络上，即将先验贝叶斯网络和数据相结合而得到一个后验贝叶斯网络。那么什么是贝叶斯网络？（2）贝叶斯网络模型概述贝叶斯网络(Bayesian network),又叫概率因果网络、信任网络、知识图等,是一种有向无环图。一个贝叶斯网络由两个部分构成，一个是具有K个节点的有向无环图，图中有节点和连接节点的有向边，节点代表随机变量，有向边代表了节点间的相互关联关系。另一个是与每个节点相关的条件概率表（Conditional Probabilities Table,CPT）P，它表示了节点和父节点之前的相关关系，这个关系就是条件概率。那么由这个图G和概率表P构成的网络就是贝叶斯网络，贝叶斯网络有如下假设（或者规定）：给定一个父节点，那么它的子节点独立于任何非这个子节点的后代节点和其构成的任何节点子集。即如果用A(V i)表示非V i后代节点构成的任何节点子集,用∏(V i)表示V i的直接双亲节点,则　 p(Vi|A(Vi),∏(V i))=p(Vi|∏(Vi)) 在这个假定下，变量Vi的联合概率就是：给定每个节点的父节点情况下，每个节点条件概率只积，如图中的联合概率为　 p(V1,V2,...,V6)=p(V6|V5)·p(V5|V2,V3)·p(V4|V2)·p(V3|V1)·p(V2|V1)·p(V1) 这就是贝叶斯网络和其网络的概率。我们可以让贝叶斯网络通过数据不断的学习修正，上次修正的贝叶斯网络又是下次学习的先验贝叶斯网络，持续的学习使得网络更能体现数据的意义，即，让数据来说话！（2）树增强朴素贝叶斯网络模型概述尽管贝叶斯网络有良好的逻辑性、预测性、并在处理复杂问题上有很大的优势，但它的假设还是带给了它一定的局限性（还记得刚才说的贝叶斯网络那拗口的假设？——给定一个父节点，那么它的子节点独立于任何非这个子节点的后代节点和其构成的任何节点子集）。近年来，很多学者对贝叶斯网络模型做了改进，其中一个重要的改进模型就是树增强的朴素贝叶斯网络模型（Tree Augmented Na?ve Bayes），英文简称TAN。 TAN放松了独立性的假设，它的核心在于：除了父节点之外，每个节点还可以有一个节点的边指向它。树增强的朴素贝叶斯主要用来分类，由于他允许一个节点被除父节点之外的另一个节点指向，因此有更高的分类精度。但是TAN要求节点，即随机变量均为离散型，因此有必要将连续的变量离散化，但这却损失了连续变量中包含的信息。（3）马尔科夫链贝叶斯网络模型概述马尔科夫毯贝叶斯网络模型（Markov Blanket Algorithms），事前不对节点之前做边指向，换句话说，初试图是一个只有节点没有边的空图，而后通过一定的检验来辨认变量之间的条件独立，并逐步识别出贝叶斯网络的结构。但这也会带来计算的复杂性，并花费更长的时间，一个办法是用特征选择过程（Feature Selection）来筛选对目标变量关系显著的变量。二、案例分析 1．案例说明某银行这些“不良风险”的客户减少贷款或者为他们提供其他产品。 2．软件实现使用CLEMENTINE读入数据，并将default的字段方向改为输出，用过滤节点过滤掉无效的空值。接着用对数据创建TAN、马尔科夫毯贝叶斯网络、特征选择的马尔科夫毯贝叶斯网络，和人工神经网络（也可以用来预测）。 3．结果说明（1）TAN模型如下图：可以看出，TAN模型创建的结果是变量preddef2对是否拖欠贷款最