- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于SVM与SOM的税务稽查选案模型研究
计算机技术基于SVM与SOM的税务稽查选案模型研究夏辉李仁发(湖南大学计算机与通信学院,长沙410000)摘要税务稽查选案是税务机关在税收征管和稽查中面临的一个重要问题。提出了一种基于支持向量机(SVM)与自组织特征映射(SOM)神经网络相结合的稽查选案方法。首先基于支持向量机(SVM)对纳税人进行分类,然后采用自组织映射神经网络(SOM)对疑点信息进行聚类,选出需要重点进行稽查的目标对象。通过对实例的具体测试,表明模型的有效性。关键词稽查选案支持向量机自组织特征映射神经网络中图法分类号TP183;文献标志码A税务稽查选案是通过对纳税人综合财务信息、纳税情况等的分析、处理,最大限度地发现存在的问题和疑点,选择并确定税务稽查对象的过程,是实施税务稽查的首要环节。传统的稽查选案,是以个人的经验、上级下达和举报人提供的材料等人工方法来的确定的,具有较重的人为因素与较大的不确定性。因此,创建科学的选案模型,从众多的纳税人中筛选出最有可能的逃税者,提高稽查选案工作的科学性和准确度,是税务稽查部门日益关注的课题。目前税务稽查选案方法有利用差别分析识别逃税[1],利用BP网络模型来对诚实纳税纳税人和非诚实纳税纳税人进行分类[2],利用自组织映射神经网络(SOM)技术建立选案智能分析模型[3]等。申报征收数据以及经营状况数据进行分析处理,从中识别出纳税人是否存在税收申报欺诈问题[4]。设税务机关辖区内的同类纳税人集合为X=T(x1,x2,,xm),这里同类纳税人是指同一地区同一行业内的同档次纳税人,这里纳税人的档次分一般纳税人和小规模纳税人两类。某一个纳税人xi与申报征收数据和经营状况数据的相关属性集合为A=(a1,a2,1次采样集合,an),1个纳税周期内,X在A上的v1v11v1nm×nV∈R()1V==ω,vvvmm1mn(1)式中v,i=1,2,,m表示纳税人x对应于属性ii集A的1个样本,而v,j=1,2,,n表示纳税人xiji相应于属性定义1aj的一个取值。税务稽查选案问题是一个二分类问1基于依据SVM与SOM稽查选案模型的理论题,是对一个给定的n维实空间Rn中存在的m个样本的数据集V,判断决定vi,i=1,2,,m中哪些1.1税务稽查选案问题描述税务稽查选案问题就是税务机关根据纳税人是属于分类一(可信的),哪些是属于分类二(不可信的,即存在纳税欺诈行为)。对纳税数据不可信类纳税人根据纳税人申报征收数据和经营状况数据进行归类后,对属同类型的纳税人稽查税务机关可采用相同的方式方法进行稽查,提高稽查的准确性和效率性。2009年4月3日收到第一作者简介:夏辉(1973—),男,湖南武冈人,湖南大学计算机与通信学院硕士研究生,研究方向:计算机应用技术、数据挖掘;E2mail:xhhun@126.com。4028科学技术与工程9卷定义2对纳税数据不可信类纳税人进行归类就是对一个给定的n维实空间Rn中存在的m个样本的数据集V,构造k个分组,每一个分组就代表一个类(kn)。而且这k个分组满足下列条件:(1)每一个分组至少包含一个样本;(2)每一个样本属于且仅属于一个分组,同一分组的样本属性具有高度的相似性。1.2支持向量机(SVM)的分类方法基于统计学理论的支持向量机(SVM)作为一种分类工具,已经在多个领域得到了广泛的应用[5]。对于线性可分的二分类问题,可直接构造最分布之间的一些经验公式,近似确定核函数参数的取值。(2)实验法,主要是交叉验证法。交叉验证法用全部训练样本既训练学习机器又测试学习机器的泛化能力。(3)理论法,主要指基于函数集VC维的算法。它根据泛化理论通过控制分类器的泛化能力(最小化测试错误率的期望值)和最优分类超平面,来调节支持向量机参数。本文在设计SVM分类器时采用径向基核函数,并将遗传算法(GA)引入SVM分类器的构造训练过程,将遗传算法好的搜索特性与支持向量机的优良d优分类面,设样本集(xi,yi),x∈R,yi∈{+1,[6]2性能有机结合,确定核函数参数σ和正则化参数C,有效解决支持向量机的参数选择难题,算法如下:1)t=0(t表示进化代数);-1},i=1,2,,n,其中,n为样本个数;d为样本向量的维数;yi是样本xi的类标记(yi=1时为一类,yi=-1为另一类)。这时分类决策函数为l33f(x)=sgn(∑aiyi(xi·x)+b)(2)22)对SVM分类模型的径向基核函数参数σ和惩罚系数C编码;3)随机选择初始种群P(t);i=133(2)式中sgn(·)为符号函数,ai和b分别为最优的Lagrange乘子值和分类阈值。对于非线性问题,SVM通过引入核函数K(xi,xj),将样本向量映射到高维特征空间,然后在高维空间构造最优超平面,获得线性最优决策函数,通过核函数巧妙解决了维数问题,避免了学习算法的计算复
文档评论(0)