数据挖掘取样的方法的研究.docVIP

下载本文档

2
0
约3.35千字
约 8页
2018-10-17 发布于福建
举报
版权申诉

数据挖掘取样的方法的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘取样的方法的研究

数据挖掘取样的方法的研究　　【摘要】本文阐述了数据挖掘的概念，数据挖掘的本质和特征，从而进一步的深入分析了数据挖掘取样方法，最后，本文还对SAS数据挖掘的方法 (SEMMA)进行了简要的分析。　　【关键词】数据；挖掘；取样方法；研究　　中图分类号：C37文献标识码： A 文章编号：　　一、前言　　随着数据库技术的发展和使用，数据库的存储数据变得日益的庞大，这就需要我们在数据挖掘的领域里，使用科学有效的方式来降低挖掘算法的工作量，使得数据挖掘的更加的具有效率。　　二、数据挖掘概述　　数据挖掘（Data Mining，DM）又称数据库中的知识发现（Knowledge Discover in Database，KDD），是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。　　知识发现过程由以下三个阶段组成：（1）数据准备，（2）数据挖掘，（3）结果表达和解释。数据挖掘可以与用户或知识库交互。　　数据挖掘是通过分析每个数据，从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集；规律寻找是用某种方法将数据集所含的规律找出来；规律表示是尽可能以用户可理解的方式（如可视化）将找出的规律表示出来。　　数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析，等等。　　三、数据挖掘的本质和特征　　一般来说，比较狭义的观点认为数据挖掘区别于常规数据分析的关键点在　　于：数据挖掘主要侧重解决四类问题：分类、聚类、关联、预测，而常规数据分析则侧重于解决除此之外的其他数据分析问题：如描述性统计、交叉报表、假设检验等。广义上说，任何从数据库中挖掘信息的过程都叫做数据挖掘。从这点看来，数据挖掘就是 BI（商业智能）。但从技术术语上说，数据挖掘特指的是：源数据经过清洗和转换等成为适合于挖掘的数据集。数据挖掘在这种具有固定形式的数据集上完成知识的提炼，最后以合适的知识模式用于进一步分析决策工作。从这种狭义的观点上，我们可以定义：数据挖掘是从特定形式的数据集中提炼知识的过程。　　四、数据挖掘取样方法　　抽样是一种经典的统计技术,已被研究了过百年的历史,尤其是随机抽样技术,已有许多基本原理(诸如中心极限定理、Chernoff、Hoeffding和Chebyshev界等描述了随机抽样的有效性。在数据管理领域,取样通过抽取能捕捉数据基本特征的小部分数据子集来代表总数据集,并根据该样本集获得近似查询结果,或基于该样本集进行数据挖掘等工作。近年从VLDB,SIGKDD,SIGMOD和ICDE中出现的论文均采用了取样技术,验证了取样技术应用的流行。　　取样方法的分类　　图1是数据挖掘领域中代表性取样方法的分类图。根据各数据项被选中的概率是否相同,取样方法可以分成均匀取样和偏倚取样两种。顾名思义,在均匀取样中各数据项以相同的概率被选中,而在偏倚取样中,不同元素的入选概率可能不同。一个取样设计被称为均匀取样设计,如果在这个取样设计内由数据集D产生的任一取样集S的概率为(S;D),当时,会满足(S;D)=(S′;D)。也就是说,所有相同尺寸的取样能以相同的取样概率产生并且是相互雷同的。均匀取样方法有两种经典的取样设计:伯努利取样(Bernoulli sampling)和水库取样(reservoirsampling),它们是所有其他取样方法的基础。在Bernoulli取样设计过程中,用概率q∈(0,1)包含每个到达的数据元素,用概率1-q独立排除其他的数据元素。在这类Bernoulli设计中的相关取样概率为,可见伯努利取样是均匀的,其主要优点是取样过程简单和时间成本低。水库取样单遍扫描数据集,生成均匀取样集。令样本集大小为K,当第n个元素到达时(nK),数据流中的元素都以K/n的概率被选取。如果样本集大小超出K,则从中随机去除一个样本,各元素的入选概率相同。Vitter推荐了一个技巧来提高算法效率。在原算法中,对于流中的每个元素都需要“扔骰子”,判断该元素是否以K/n概率被选中,改　　　　　　进的算法转而判断一次可略过多少个后续元素,减少了扔骰子次数,降低了时间复杂度。水库取样是重要的随机均匀取样方法,使传统的取样技术拓展到了数据库领域,其时间复杂度仅为Ο(n(1+log(N/n))),空间大小固定