孤立点分析方法在现代审计中运用研究.docVIP

孤立点分析方法在现代审计中运用研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
孤立点分析方法在现代审计中运用研究

孤立点分析方法在现代审计中运用研究   一、引言   随着计算机信息技术的迅猛发展,大型企业和信息型产业大多都正在使用供应链管理(Supply Chain Management,SCM)系统或企业资源计划(EnterpriseResource   Planiling,ERP)系统或客户关系管理(Customer RelationshipManagement,CRM)系统或财务管理(Financial Management)系统等,使企业的管理制度更加完善,同时企业所有运营环节都充斥着信息资源(包含各个部门大量财务数据和经营管理数据的数据仓库)。审计人员从被审计单位的信息系统数据仓库中获取大量审计数据,面对被审计单位海量数据中蕴含着极其丰富信息的挑战,仅仅依靠只是将传统手工的审计流程计算机化的信息技术,如结构化查询语言(SQL)等,很难满足信息时代审计的需求。   计算机辅助审计技术的不断发展,数据挖掘技术为被审计单位在面对海量数据时提供了新的思路,在审计工作中引入对海量数据进行“轻松处理”的数据挖掘技术(如决策树算法、聚类算法、关联规则发现算法等),是对计算机审计方法的补充,“减弱”传统审计方法的限制条件,为现代审计开拓了便捷的路径。可以说是现代计算机审计方法一个里程碑式的突破,也是计算机审计方法探索的悄然趋势。审计人员在面对存在着复杂的审计环境和海量的财务数据时,若利用数据挖掘技术,可以在短时间内发现异常数据(因它在发现审计线索特征方面可以发挥其特有的功能),有助于对被审计单位进行系统全面的审计,把风险尽可能降低,进而拓宽审计领域。   本文基于数据挖掘技术中的孤立点分析方法来发现一些异常的审计现象,孤立点分析方法先对这些大量的审计数据进行预处理(除噪),然后建立数据挖掘模型,运用此模型分析出具有一定特征且小比例的异常数据,供审计人员决策分析时参考。   二、孤立点分析方法   孤立点分析是数据挖掘技术中用来检测审计数据中异常数据的一项重要技术。由于审计分析中的疑点数据往往表现为孤立点,通常情况下,在对被审计数据进行分析时,常常选择孤立点分析技术。   (一)孤立点   孤立点是数据集中与众不同的数据,使人怀疑这些数据并???随机偏差,而是产生于完全不同的机制。在聚类分析中,有的数据对象不属于任何的类或簇,这样的数据对象在聚类中称为噪声,而在孤立点分析中,则称为孤立点。孤立点是个相对的定义,特别地,在审计领域,审计数据初始分布模型假设的不同,或研究者在不同的检测背景下,都会得出不同的结论。   鉴于很多人为或非人为的原因都会导致孤立点的产生,如人为执行错误或人为故意操纵数据为达到某种目的而致使孤立点的产生,再如仪器测量错误、系统故障、数据总体中的自然偏差或固有的数据变异都会导致孤立点的产生,我们要对孤立点产生的原因进行全面分析。但最重要的是,审计人员要对这些孤立点保持敏感性,并分析出孤立点背后产生的深层次原因,来获取有价值的审计信息。   (二)孤立点分析方法   1.孤立点分析方法的概念   孤立点分析方法可简述为:给定一个有n个数据点或对象的集合及预期的孤立点数目k,发现与剩余的数据相比是显著异常的、孤立的、或不一致的前k个对象的过程。因此,孤立点分析实际上可以被看作两个子问题:   (1)在给定的数据集合中定义什么样的数据是不一致的;   (2)找到一个有效的方法来检测这样的不一致数据。   2.孤立点分析方法介绍   (1)基于统计的方法   当数据集的概率分布及参数(如正态分布、泊松分布等,均值、方差)已知或需经多次验证并试图得出数据真实的概率分布或参数特征时,一般使用基于统计的方法。此方法尤其用于数值型数据。孤立点的确定主要是通过检验偏离统计模型的不一致数据,并统计出其个数,分析其性态。   (2)基于距离的方法   Knorr和Ng提出了一种体现孤立点本质的定义,即若一个数据对象与数据域中大多数对象之间的距离(相异度)都大于某个阈值,将此数据对象确认为一个孤立点。阈值的设定是在对被审计数据清洗,并检验其有效性之后,据审计数据所属行业的特点,将行业常规值预先设定为阈值,或经公式计算得出阈值。此方法有效的避免了基于统计方法中数据分布特征确定的问题。   (3)基于偏离的方法   基于偏离的孤立点挖掘是通过检查一组对象的主要特征来确定孤立点。与给出的描述“偏离”的对象被认为是孤立点。此孤立点挖掘有两种常用的技术:第一种序列异常技术,是一种基于相异度函数(往往是审计数据集的总方差)的有效方法,预先定义样本集的一般特征,其余“偏离”这些特征的样本属于异常样本。第二种OLAP数据立方体技术,在审计时,对那些标为异常的单元下钻,可能会发现更细节或较低层次的异常。   (4)基于

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档