- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于欧式距离孤立点数据挖掘方法在审计中应用与研究
基于欧式距离孤立点数据挖掘方法在审计中应用与研究
[摘 要] 本文从距离孤立点数据挖掘相关概念出发,讨论了欧式距离挖掘方法在审计中的实现过程,并以某一公司应收账款明细表为例,使用Excel中的VBA编程实现了该挖掘方法,通过该方法帮助审计人员快速确认了应收账款重点审计的交易事项,提高了审计效率#65377;
[关键词] 孤立点挖掘;欧式距离;审计专业性分析;VBA编程
[中图分类号]F239.1[文献标识码]A[文章编号]1673-0194(2008)13-0048-03
1 引 言
数据挖掘(Data Mining)自从20世纪90年代中期引起人们的广泛兴趣以来,便得到了迅猛的发展#65377;数据挖掘是从大量数据中发现正确的#65380;新颖的#65380;潜在有用的并能够被理解的知识或规则的过程#65377;一般来说,数据挖掘可以分成如下4类:类别的判定;类别的描述;相关#65380;依赖关系的发现;孤立点的数据挖掘(Outlier Mining)#65377;孤立点数据挖掘问题是数据挖掘的重要研究领域之一,它用于发现数据集中小部分的数据对象,这些对象和数据中的一般行为或数据模式有着显著的不同#65377;它在实际生活中已经有了相当的应用,如金融#65380;通信领域的欺诈分析与监测#65380;网络入侵监测#65380;消费极高或极低客户的消费习惯#65380;过程控制中的故障检测与诊断等#65377;孤立点数据挖掘方法在审计中的应用也有其重要意义,它有助于揭示审计数据中隐藏的有价值的知识,并能辅助审计人员为得出审计结论#65380;出具合理保证的审计报告获取充分#65380;适当的审计证据#65377;
2 基于距离孤立点挖掘的相关概念
孤立点又称为离群点#65380;野点,到目前为止,孤立点还没有一个被普遍采纳的定义,Hawkins在专业应用领域较早对孤立点进行了描述:“孤立点与其他点如此不同,以至于让人怀疑它们是由另外一个不同的机制产生的”#65377;现有的孤立点在数据挖掘方面的定义大多是在Hawkins定义的基础上给出的一个定量化描述#65377;
基于距离孤立点最早是由Knorr和Ng提出:孤立点为数据集中与大多数点之间的距离都大于某个阈值的点,描述为在数据集X中,当且仅当X中至少有r部分的对象与O距离大于设定的rO时,O是一个孤立点#65377;基于距离孤立点的挖掘方法不同于基于统计的方法,即使在不知道数据集分布的情况下,它仍然能够有效地发现孤立点#65377;另外,基于距离孤立点的挖掘方法能处理任何维度任意类型的数据,当属性数据为区间标度等非数值属性时,对象之间的距离不能直接确定,但只要把属性转换为数值型,再按照定义计算各对象之间的距离便可#65377;同时,这种方法具有比较直观的意义,算法比较容易理解#65377;
孤立点挖掘定义:应用数据挖掘的理论和方法发展数据集中的孤立点,即用于发现数据集中不同于数据中的一般行为或数据模式的小部分对象,这小部分对象与一般行为对象有着显著不同#65377;
基于加权欧式距离在审计中孤立点挖掘:通过企业信息系统收集到的原始数据,对原始数据用标准差进行标准化后计算数据集中的n个对象两两之间的加权欧式距离dij,形成加权欧式距离矩阵D,再根据dij与d0设定的关系转化成等价转换矩阵R,然后计算矩阵R中每个对象与其他对象距离大于d0的个数ri,并与设定的最大个数r0比较,如果ri r0,则认为对象Xi是孤立点,否则不是孤立点#65377;
3 距离孤立点挖掘方法在审计中的实现过程
被审计单位的交易#65380;余额等审计相关信息大量存储于ERP#65380;MRPⅡ和CAIS等信息系统中,审计人员通过系统自带的数据导出功能将需要数据引出,存储在定指计算机数据库上#65377;审计人员通过对这些数据执行孤立点挖掘程序实现孤立点挖掘,找出这些与一般行为有显著不同的孤立点,从而确认为审计重点,实施审计程序后获取审计证据#65377;
第一步 数值型数据的标准化
原始数据集中的数据通常有特定的单位,不同的单位度量会对距离的计算结果产生影响#65377;所以,在计算距离之前,应先对数据进行标准化,用标准化后的数据计算距离#65377;本文使用标准差标准化方法,得到分布在标准区间内的属性值,方便数据的使用#65377;进行标准化的目的是为了防止具有较大值域的属性与具有较小值域的属性相比对度量的结果产生过大的影响#65377;标准化的情况如下:
设X={Xi | Xi=(xi1,xi2,…,xij,…,xim),i=1,2,…,n; j=1,2,…,
您可能关注的文档
最近下载
- 2025年释放AI时代的潜力报告(英文版).pdf VIP
- 七年级语文第一次月考卷(全解全析)(苏州专用)-A4.docx VIP
- 2025-2030中国军用卫星有效载荷和子系统行业市场发展趋势与前景展望战略研究报告.docx VIP
- 五粮液面试题库及答案.doc VIP
- 2024上海市公务员考试【省直、行测A类、C类、申论A卷】4套真题及答案.doc VIP
- 蒸压加气混凝土砌块薄层砌筑.docx VIP
- 人教版七年级语文上册第二单元测试题及答案.doc VIP
- 16J604 塑料门窗(建筑图集).docx VIP
- 【最新版】人教版七年级上册语文第一单元测试卷(含答案).pdf VIP
- 眭氏源流及宗亲分布.docx VIP
文档评论(0)