基于决策树和支持向量机在公司财务风险评估中的应用.docVIP

基于决策树和支持向量机在公司财务风险评估中的应用.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于决策树和支持向量机在公司财务风险评估中的应用.doc

基于决策树和支持向量机在公司财务风险评估中的应用   摘 要:本文选取被ST的股票,通过分析其包括盈利能力、资产管理能力、偿债能力、发展潜力四大类的21个财务指标,对公司是否被ST进行分类预测。本文在对数据进行极差规格化处理后,借助 R中Rattle软件包的随机森林(Random Forests),选取了重要性高的前8个指标,再分别用决策树和支持向量机的方法进行对比研究。得出支持向量机建立的风险评估模型相较于决策树有更好的分类预测功能。   关键词:决策树;支持向量机;财务风险;ST;分类   0 引言   沪深证券交易所在1998年4月22日宣布,将对财务状况或其它状况出现异常的上市公司的股票交易进行特别处理。本文的研究建立在上市公司财务状况异常的基础之上。ST是Special treatment的缩写,ST股是指境内上市公司连续二年亏损,从而被进行特别处理的股票。实行ST制度是为了保护投资者利益,建立投资者信心,以维护整个证券市场的秩序。   1 决策树和支持向量机的相关理论   1.1 决策树   决策树是一个类似于流程图的树结构,通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类,树上每个节点说明了对实例的某个属性的测试,节点的每个后继分支对应于该属性的一个可能值。   决策树无需假设先验概率分布,具有很好的灵活性和鲁棒性;不仅可以利用离散和连续的数值样本,还可以利用“语义数据”;产生的规则集结构简单,有较强的解释性,计算效率高;能有效抑制样本噪音和属性缺失问题。不足之处:分类规则复杂;具有过度拟合现象。   1.2 支持向量机   支持向量机(简称SVM)的核心思想可以概括为:寻找一个最优分类超平面,使得训练样本中的两类样本点尽量被无错误地分开,并且要使两类的分类间隔最大。   SVM方法的优点在于:适合有限样本或小样本的问题;能克服决策树过度拟合的问题;需要设定的参数较少(2、3个),具有很强的灵活性和可拓展性;具有分类面简单、泛化能力强、拟合精度高等特点。不足之处:计算复杂度是(m^3),难以解决大数据问题;缺乏可解释性,难以依据信息选择核函数。   2 财务风险评价指标及样本选取   2.1 财务风险评价指标体系的构建   一般而言,财务风险评价指标应包括盈利能力、资产管理能力、偿债能力、发展潜力。本文在考虑可操作性、全面性、动态性、可比性原则和前人研究成果的基础上初步选取了以下四大类共21个财务指标,见下表。   表1 各财务比率的定义、分类及计算   2.2 样本选取   考虑到ST公司是连续两年亏损后予以ST处理的,当上市公司被特别处理时(这一年记为第T年),其在第T-1及T-2年已经发生亏损,所以选取公司被特别处理前两年的财务指标来构造预测模型,会高估模型的预测能力。尽早的预测企业财务危机可以及时采取有效的措施预防经济损失,而一旦公司财务报表已经开始出现问题才做出预测,则显然有些为时已晚。因此,我们采用第T-3年的数据来预测企业第T年的情况,这样将更好地判定模型的预测能力和实用价值。   ST公司样本选取标准是2007至2009年被ST(剔除金融行业以及由于其他异常状况被ST的)且具有T-3年的完整财务数据的沪深两市部分上市公司。根据这一标准,选取了74家ST公司。这些样本覆盖了包括机械设备仪表、电子、纺织服装等行业。   非 ST 样本公司选取标准是与这些 ST 公司来自相同的行业、资产规模相当且具有 T-3 年的完整财务数据的沪深两市上市公司74家。样本数量如下表所示:   表2 ST与非ST公司样本选取数量表   3 基于决策树和支持向量机的应用比较   3.1 数据预处理   3.1.1 数据变换   由于数据取值差距较大,在带入决策树和支持向量机模型之前,先对21个指标数据进行极差规格化处理,即   因此, [0,1]消除了数据之间的量纲,便于不同变量之间的比较。   3.1.2 指标筛选   变量的好坏会直接影响分类效果,但是我们事先并不知道哪些是主要的指标。于是,利用随机森林可以在决定类别时,评估变量的重要性这一特性,选取具有较高重要性的变量,结果如下图;综合平均准确性下降和平均基尼指数减少量的情况,选取重要性相对较高的八个指标(见下表),剔除其余变量。由于ST股是指上市公司连续二年亏损后被特别处理,所以公司的财务风险与利润情况息息相关,选取的这八个指标能够反映出企业的获利情况,符合我们研究的要求,于是利用这八个变量的信息进行下面决策树和支持向量机方法对ST与非ST公司的分类预测比较。   图3 随机森林变量重要性测度结果   表3 指标集   3.1.3 样本划分   按照软件中默认的比例,将原

文档评论(0)

guan_son + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档