- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
探析数据挖掘中抽样技术的应用.doc
PAGE
PAGE 7
探析数据挖掘中抽样技术的应用
摘 要:随着信息时代的发展变化,庞大的数据规模对于当前数据挖掘算法处理的要求也越来越高。数据挖掘技术指的是从大量不完全的、模糊的以及随机的数据中提取出具有潜在价值的信息的过程,其中的知识通常所指的有意义的规律。数据挖掘技术是随着数据库技术发展必然的产物,它能够实现据库信息管理系统智能化,还能够改善系统的实用性与有效性,为决策提供科学有效的依据。但是由于数据库规模仍在不断扩大,个人电脑硬件配置也受到很大的限制,数据挖掘算法的效率面临着较大的挑战。在这样的情况下,具有提高计算机效率的抽样技术被广泛应用。由于抽样技术需要计算科学、数据库与统计学相关学科的支持,所以在数据挖掘中应用抽样技术还有待进一步完善。本文首先论述数据挖掘及抽样技术的概念,分???在数据挖掘中应用抽样技术的重要性,最后结合相关实例探讨具体应用方式。
关键词:数据挖掘;抽样技术;统计学;数据库
计算机技术的高速发展使计算机的存储能力和处理能力得到很大的提高,不同类型的数据库应用也越来越广泛。由于计算机技术和信息技术的不断融合,全球快速进入信息化时代,产生兴趣的渠道越来越多、信息量越来越大、信息更新的频率也逐渐加快。面对如此庞大的信息量,人们获取有价值的信息变得较为困难,数据库应用而生,数据库知识发现(KDD)技术就是为了满足这样的需求发展而来。随后数据挖掘作为一门新兴的学科在企业决策、商业发展的沃土中快速成长起来。就当前的研究重点来看,人们普遍重视数据挖掘过程中使用的模型和算法,对于抽样技术却没有给予应有的关注。部分学者甚至认为抽样技术的应用会导致信息丢失,且有其他技术能够作为替代。尽管抽样技术在数据挖掘过程中起到的并非决定性作用,但是其优势对于数据挖掘的收益也不能忽视。
1.数据挖掘及抽样技术概述
1.1数据挖掘技术
数据挖掘指的是从存放在信息库的海量数据中挖掘出有价值信息的过程,该技术从兴起而来一直都是研究的热门,到今天已经有大量的实现算法支持。数据挖掘技术主要面对的对象是结构化数据为主的数据仓库,随着网络技术和数据库技术的发展,类型复杂的数据不断涌现,其中隐藏着具有较高价值的知识与信息,复杂数据的挖掘主要包括对多媒体数据的挖掘、空间数据的挖掘、文本数据挖掘、流数据挖掘、Web数据挖掘。数据挖掘技术不但可以查询以往数据,还能够对数据发展未来的趋势进行预测,探索以往数据挖掘终未发现的模式,为人们的决策提供很好的支持。被挖掘出来的信息主要用于信息管理、决策、查询处理、过程控制等应用。
1.2抽样技术
抽样技术是选择数据对象子集进行分析的方法之一,在统计学中通常用于数据的事先调查和最终分析。抽样调查是一种非全面性调查,从全部调查对象中抽取出部分样本进行调查,并根据结果对总体进行推断,其目的在于获得能够反映总体特性的信息,是统计学中非常重要的方法。
数据挖掘过程中,抽样技术同样具有较大的应用,但是与统计学中的应用动机与作用有较大区别。在数据挖掘中,抽样技术能够对整体特征进行推断,处理全部数据需要耗费太高的时间和费用,而应用抽样技术能够压缩数据量,很大的减少计算开销,并产生与总体挖掘效果相近的结果。抽样技术能够贯穿于数据挖掘的全过程,在数据准备阶段、算法实现阶段、效果评价阶段都能够看到抽样技术的身影。抽样技术的应用不但可以提高数据挖掘效率,同时还能保证结果准确性、给出具体的误差范围,从而获得良好的成效。
2.抽样技术在数据挖掘中的重要性
2.1提高数据挖掘的速度和效率
数据挖掘技术好坏的重要评价因素就是速度与效率,主要取决于系统软硬件的配置、应用的工具算法、数据的选择方式以及数据集的特点。就调查而结果来说,当前已经存在的数据挖掘软硬件系统进方案中,能够不使用统计抽样方法节约成本与时间的方式是不存在的。通过应用抽样技术能够确保大部分信息不发生丢失,与此同时提高计算速度、降低成本。数据挖掘工作人员将主要精力放在模型的建立和选择上,而不是浪费大把的时间等待系统运算。
2.2辅助特殊性问题的分析
特殊问题的性质与特点同样会影响数据处理,在某些商业问题中会涉及到破坏性试验,传统处理方法难以胜任。而选择抽样技术,抽取其中一小部分产品进行破坏性实验能够推算出整体结果,确保实验的经济和有效。
2.3满足数据处理的需要
某些数据在收集过程中,可能受到数据库中过期的、无效的、错误的以及缺省的信息干扰,造成结果不准确。因此在进行数据挖掘之前应当对这一部分资料信息进行删除或修正,这一步骤也就是数据挖掘的数据清理。但是对所有元数据进行清理同样需要耗费大量的时间和精力,在某些情况下,数据挖掘在已经进行预处理过的数据仓库中开展,但是在实
文档评论(0)