数据流挖掘及其在持续审计中可用性研究.docVIP

下载本文档

10
0
约1.05万字
约 18页
2018-09-10 发布于福建
举报
版权申诉

数据流挖掘及其在持续审计中可用性研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据流挖掘及其在持续审计中可用性研究

数据流挖掘及其在持续审计中可用性研究　　编者按：随着经济管理与科学技术的不断结合，现代审计已经远远超出了仅对财务会计进行审查的狭窄范围，不断向管理领域和技术领域渗透。IT审计是技术审计的一个典型，它实质上是对计算机软件和硬件及整个信息系统的审计。近年来，我国对IT审计人才的需求大幅增长，IT审计理论及IT审计人才培养问题逐渐成为学界研究的热点之一。为将研究推向深入，并推动人才培养和学术成果交流，本刊特在“审计”栏目下开辟“IT审计”专栏，以期为研究者提供交流和探讨的平台。热忱欢迎广大专家学者不吝赐稿。?? 　　　　　　摘要：随着企业信息化程度的提高和互联网的普及，每天都会产生海量的实时数据，而数据流挖掘则为分析海量数据提供了一种新途径。数据流挖掘中的聚类、分类、离群点检测等算法的研究取得了进展，为在持续审计中应用数据流挖掘提供了可行性。本文提出的一种基于数据流挖掘的持续审计模型，克服了传统持续审计模型对审计端的存储能力要求高、占用大量硬件资源、联机分析时间长、对异常数据的发现滞后等缺点。　　关键词：数据流挖掘；持续审计；审计模型；聚类；分类；离群点检测　　中图分类号：TP391 文献标识码：A 文章编号2011收稿日期　　作者简介：谷瑞军(1979― )，男，山东菏泽人，南京审计学院信息科学学院讲师，博士，主要研究方向为数据挖掘与计算机审计；陈圣磊（1977― ），男,山东兖州人，南京审计学院信息科学学院讲师，博士，主要研究方向为机器学习。　　基金项目：国家自然科学基金G0112)；国家社会科学基金(10BGL016)；江苏省高校自然科学研究项目(09KJD520006) 　　　　　　一、引言　　网络入侵检测、股市分析、传感器网络等实时监控领域需要对大量的动态数据进行实时的、连续的数据收集与分析。由于连续到达数据的多样性、快速性、时变性等特点，形成了难以预测的无界数据流。文献［1］给出了数据流定义：数据流是一个有序数据点序列X??1,X??2，…，X??K,…,对应着一个时间序列t??1,t??2，…，t??k,…,表示数据点X??k在时刻t??k到达，同时规定当t??it??j时，数据点X??i比数据点X??j先到达。每一个数据点Xi是一个d维向量，记作X??i=(x??1??i，x??2??i,…x??d??i)，分别代表数据点X??i的d个属性值。如果我们把传统的存储于数据库中的数据称为静止的数据，那么数据流就是动态的、实时数据，它的数据采集过程和数据挖掘过程是同时进行的，因而必须以最快的速度从不断到来的数据流中挖掘出用户感兴趣的模式。对流数据进行实时挖掘称为数据流挖掘，它有如下特点：第一，流数据是不停产生的，而内存的大小有限，只能实时地进行处理；第二，存储在内存中的数据都是最新产生的，必须在这些数据还没被后来的数据替代之前对它进行及时处理；第三，没有任何操作可以暂时阻塞数据流，所有的数据只能扫描一次；第四，流数据往往天生就是高维的［2］。　　数据流挖掘的特点决定了它比传统的数据挖掘要复杂，近几年来，数据流挖掘已成为数据挖掘研究领域一个重要分支。另外，随着信息化程度的提高，越来越多的行业会产生数据流，因此，数据流挖掘的应用范围也在不断扩大。持续审计中需要审计实时、动态的数据流，构建基于数据流挖掘的持续审计模型是本研究的创新。　　二、数据流挖掘研究进展　　数据流的研究主要包括对数据流模型的研究、数据流管理研究、对数据流查询的响应研究以及数据流挖掘研究等。目前，数据流挖掘的研究热点主要集中于数据流的聚类、分类、离群点检测和频繁模式挖掘等方面，本节主要分析数据流挖掘中的聚类、分类和离群点检测的最新研究进展。　　（一）数据流聚类算法　　聚类(Clustering)是指对于一个已给的数据对象集合，将其中相似的对象划分为一个或多个组(称为“簇”，Cluster)的过程［3］。同一个簇中的元素彼此相似，而与其他簇中的元素相异。与传统数据的聚类算法不同，数据流聚类算法是在一个相对较小的内存空间里，对数据流进行一遍扫描后就可以把数据集划分为一个个簇集(cluster)。　　经典的数据流聚类算法包括STREAM［4］、CluStream［5］和DenStream［6］。STREAM算法是一种基于划分的聚类算法，它聚焦于解决k-中位数问题，即把度量空间中的n个数据点聚类成k个簇，使得数据点与其簇之间的误差平方和最小。STREAM算法实现了单次扫描，时间复杂度为??O(kn)。与传统数据的聚类算法相比，STREAM算法有更好的性能，并能产生更高质量的聚类结果，但是，STREAM算法没有考虑数