- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于随机森林上市公司财务舞弊识别研究
基于随机森林上市公司财务舞弊识别研究
[提要] 在参考前人研究成果的基础上,引入组合分类方法中的随机森林技术,对2000~2008年有财务舞弊行为的上市公司及相应的控制样本数据进行分析,模型达到较高的预测率。随机森林在特征指标选择和预测精度方面都有很好的效果,目前还鲜有文献将这一技术运用到经济管理相关研究中。
关键词:财务舞弊识别;随机森林;R语言
中图分类号:F23 文献标识码:A
收录日期:2012年8月30日
财务舞弊即财务报告舞弊,通常是指管理当局采取伪造、掩饰等手法,编制和发布虚假财务信息,诱导投资者做出错误的决策,从而实现自身利益最大化的违法行为。近年来,上市公司财务舞弊现象正因其层出不穷的发生态势和所带来的巨大损失得到各界的广泛关注,各界在谴责那些舞弊企业道德丧失的同时,更是对研究出有效识别财务舞弊的方法提出迫切希望。
一、文献综述
目前,财务舞弊识别研究主要涉及定性研究和定量研究两方面,定性研究主要通过对企业会计报表进行深度考察并试图发现其中的矛盾,以此来甄别舞弊。如,刘姝威(2002)就利用这种方法揭发了曾轰动一时的银广夏和蓝田股份的财务舞弊案。
定量研究则主要依托于统计学和数据挖掘方法,对舞弊企业与非舞弊企业控制样本进行建模,并通过模型来预测企业是否舞弊。常用的方法诸如逻辑回归模型、判别分析、神经网络、决策树、支持向量机等。如Beneish(1999)利用Probit判别方法建立模型,模型的准确预测率达到75%,并在实际中得到了一定程度的运用。顾宁生等(2009)用学习矢量量化(LVQ)神经网络进行建模,同时将模型与BP神经网络、支持向量机的预测效果进行对比,发现LVQ神经网络的效果最好。王敏(2011)结合舞弊三角理论采用逻辑回归模型建模,研究表明,法人股比例越高、监事会会议次数越多、当年的审计意见类型为非标准审计意见的公司越容易发生财务舞弊行为。
二、研究方法
近年来,很多学者采用数据挖掘方法进行财务舞弊识别研究,但这些方法的实际效果往往有限,究其原因,Breiman(1996)认为数据挖掘领域很多算法都是不稳定的,??训练集稍微有变动都会使识别效果大打折扣。在这种不稳定的情况下,将分类器组合起来能大大提升分类器的分类效果。
本文采用随机森林方法进行研究,随机森林是Breiman在2001年提出的一种组合分类方法,它主要是利用自助重抽样法对原始样本进行抽样,再用这些样本分别建立决策树,最后根据这些树的分类结果投票得出最终预测结果。在分类问题中,随机森林得到的组合模型如下:
H■(X)=arg■■(I(h(X;?专■)=j))
其中,HR(X)是组合分类模型,h表示单棵树的预测结果,I是示性函数,公式表示使用得票最多的结果进行预测。
目前,随机森林主要应用于生物信息领域,在财务舞弊识别的研究上,国内尚无相关文献。
三、实证研究
(一)样本选择。本文选取2000~2008年之间被证监会公开处罚的财务舞弊上市公司,除去涉及中报、季报、临时公告,只保留涉及年报的舞弊企业,最终剩余116家舞弊企业,以舞弊当年为一个样本,涉及多年舞弊的企业以其初次舞弊的年份为样本。为了保证控制样本的企业不涉及舞弊,对控制样本的选择采取下列限制:
1、在与舞弊企业同行业同年度的企业中进行选择,即保证舞弊样本和控制样本在行业和年度的分布要类似。
2、除去被ST、S、PT的上市公司。
3、控制样本前后3年的审计报告意见都是标准无保留意见。
通过筛选,本文最终选择116家舞弊企业和116家非舞弊企业。样本数据及下文的变量数据都来自国泰安数据库。
(二)变量选择。本文从公司财务状况和公司治理两个方面对变量进行选择,具体变量如表1所示。(表1)
(三)模型建立过程。整个模型的构建过程基于R语言环境并采用R语言的varSelRF包和CORElearn包进行,R语言是一种集统计计算和图形绘画为一体的程序语言,在R的镜像站上有接近4,000多个程序包,涉及统计学、机器学习、计量经济学等多个学科,varSelRF和CORElearn包里包括了用随机森林进行变量筛选和建模的相关函数。
1、变量筛选。随机森林变量筛选的主旨思想是从备选的变量中选取使分类效果达到最优且数量最少的变量组合。经过筛选,财务杠杆系数、流动资产周转率、实际所得税率、销售期间费用率、应收账款周转率、营业利润率、债务保障率、资产报酬率、资产负债率9个指标成为入选的变量。
2、训练集、测试集划分。从样本中随机抽取75%作为训练集,剩余的25%为测试集。
3、RF模型建模。大量实证研究的结果表明,在模型的建立过程中对参数进行相应的调整能使模型达到更好的效果,RF需要调整的参数主要有rfN
文档评论(0)