基于模糊概念可疑金融交易量化关联规则探究.docVIP

下载本文档

4
0
约4.1千字
约 8页
2017-07-04 发布于福建
举报
版权申诉

基于模糊概念可疑金融交易量化关联规则探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于模糊概念可疑金融交易量化关联规则探究

基于模糊概念可疑金融交易量化关联规则探究摘要：从模糊集的基本理论入手，通过定义模糊概念软化属性域的划分边界，提出了一种新的基于模糊概念的量化关联规则方法。本方法克服了因划分区间而造成数据缺失的不足。最后通过将某市2004年的实际数据运用到建立的算法中，验证算法的有效性，为有效开展可疑金融交易识别提供了有益的参考。? 关键词：反洗钱；关联规则；模糊集；隶属函数? 中图分类号：F830文献标识码：A 文章编号：1002-2848-2007（02）-0057-04??? 随着反洗钱工作的不断深入，对海量金融交易数据进行有效挖掘，从中判别出可疑金融交易已经成为反洗钱工作的关键环节之一。具有多种成熟算法的关联规则挖掘算法成为最具挑战性的挖掘工具，最早的关联规则挖掘问题由Agrawal等人提出［1］，通过几年的发展，已有了很多成熟有效的算法［2,3］，但传统的关联规则挖掘问题仅能处理布尔属性的数据，即项目存在或是不存在。而在金融交易数据中存在大量的表（关系），包含着丰富的属性类型。有的属性是数量型的（如年龄，交易金额等）或者是分类型的（如邮政编码，电话号码等），这些属性间蕴涵着丰富的关联关系。有效的发现这些关联关系，对于实际决策过程具有十分重要的意义。? 量化关联规则由Srikant等人于1996年提出，其算法的主要思想是采取分区技术，将需进行量化处理的属性的域划分成一个一个区间，并对相邻区间适当的合并，从而将问题转化为布尔关联规则的问题进行解决［4］。尽管这一方法为解决量化关联规则的挖掘问题提供了一条有效途径，但也存在明显的不足：首先，造成明显的边界问题，即在挖掘过程中，对靠近区间边界值的作用，要么过分强调，要么被忽略；其次，划分的区间可能不简明或无实际意义，不利于专家理解和信息抽取。? 同时，通过对已知的洗钱行为的分析，可以发现，大量的犯罪分子在了解可疑金融交易报告体制的条件下，往往会故意减少一点交易金额（使交易金额在监管范围以外），从而达到规避金融部门进一步检查的目的。针对以上问题，本文提出了基于模糊概念的量化属性关联规则挖掘方法。该方法以模糊集理论为基础，通过在数据属性域上定义一组模糊概念，将隐含于量化属性间的关联关系转化为模糊概念间的问题而解决。这样，就可以解决因区间划分不明确而引发的问题，并且使得到的结果简明、便于理解。? 一、问题定义? （一）模糊概念表示? 由于金融交易数据的多样性与复杂性，其中很多数据需要借助模糊概念进行表示。虽然模糊概念的内涵与外延都不明确，但人脑却善于判别与处理不精确、非定量的模糊概念，并从中得出具有一定精度的结论。所以，对数据库的量化属性处理不采用区间划分的方法，而采用模糊概念对其进行抽象、概括，从而使得最终挖掘出的规则表示自然、简明、易于专家理解。模糊概念的数学表示就是模糊集合论，其不明确的内涵与外延隶属函数定量描述。所以，模糊概念实际上是在一定论域中的一些模糊集合。? 为便于与量化属性统一处理，对属性类型，可将其值映射成整数，从而将类型属性转化为量化属性进行处理：而对于精确概念将其看作模糊概念的特殊情况进行处理，即隶属函数的值域退化为{0,1}。这里的模糊概念及其对应的模糊集和相应的隶属函数可由反洗钱领域的专家定义，或是对大量数据进行模拟测试，经训练得到。?? （二）模糊关联规则定义? 利用模糊概念表示的关联规则也称为模糊关联规则。首先定义模糊概念模式及其支持率，然后给出模糊关联规则的定义及其兴趣性度量方法。? 为挖掘有效的模糊关联规则，用户必须预先给定最小支持率minsup和最小置信度mincon。所以，模糊关联规则的挖掘问题就是对给定的数据库D和量化属性域上定义的模糊概念集N，发现支持率和置信度分别大于minsup和mincon的所有模糊关联规则。? （三）早期量化关联规则算法? 1．等深划分(equi-depth partitioning)? 划分为N个区间，每一个包含大致相同的样本个数。Fukuda提出的等深度划分方法［5］在一定程度上解决了过小支持率和过小置信度问题。这种方法趋向于将支持率较高的区域划分为多个小区间，离散化后原本相近的连续属性取值分散到不同的区间，降低了包含该属性峰值区域的项集支持率；当支持率降到最小支持率以下的时候导致信息丢失。当数据分布在某个点附近达到峰值时，等深度划分这种机械的方法并不能反应出数据本身的特点，因此，我认为对像金融交易数据这样的高偏度数据处理效果不理想。? 2．部分k度完全方法（partial k-compelement）? 当数据分布在某个点附近达到峰值时，等深度划分不能反映出数据本身的特点。另一方面，聚类方法可以定量地确定对象之间的亲疏关系