数据挖掘领域抽样技术运用中难题.pdfVIP

下载本文档

5
0
约7.58千字
约 6页
2017-06-24 发布于北京
举报
版权申诉

数据挖掘领域抽样技术运用中难题.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

38 数据挖掘领域抽样技术运用中的难题中国首都经济贸易大学统计学院朱梅红一、引言 20世纪80年代末和90年代初，随着信息技术的发展，数据的存取更加方便，很多领域都积累了大量的数据，形成了大规模的数据库或数据仓库。人们需要从这些大量的数据中提取或“挖掘”有用的知识，从而促成了数据挖掘(Data Mining，DM)技术的诞生。数据挖掘是集统计学、数据库、信息科学、机器学习、可视化等多种学科的一门交叉学科，主要任务是发现数据中隐含的模型或模式。具体来说，包含分类或预测、聚类、关联分析、序列模式发现、孤立点探测等。在模型或模式发现过程中，由于数据规模过于庞大，为使算法得以运行或提高运算效率，人们往往针对抽样数据进行挖掘，因而也广泛应用了抽样技术。数据挖掘中的抽样技术继承并发展了统计学领域的抽样技术，经过十几年的发展，数据挖掘领域的抽样技术日臻成熟，但仍有许多难题需要解决。本文首先分析数据挖掘领域抽样技术运用中的一些难题，然后指出其未来的研究和发展方向。二、数据挖掘领域抽样技术运用中的难题在数据挖掘过程中运用抽样技术时，主要有四个难题：一是抽样误差的定义与测度，二是样本量的确定，三是抽样效果与效率的衡量，四是抽样程序的设计。而前三个问题都与抽样的方式有关，所以这里先介绍一下数据挖掘中的抽样方式，然后对各个难题逐个分析。 (一)数据挖掘中常用的抽样方式数据挖掘中常用的抽样方式如图1所示。 323 2007年中日经济统计学国际会议论文集图1数据挖掘中常用的抽样方式 1．静态(Static)抽样静态抽样也称单阶段抽样或一次性抽样，是根据估计的精确性、可靠性等要求，计算一个固定的样本量，所有的后续分析只针对一次性抽取的这个样本而展开。数据挖掘中运用的静态抽样方式都来自于统计抽样调查领域，主要有：简单随机抽样、分层抽样、系统抽样等。该抽样方式一般在数据挖掘算法执行之前进行，适合各类挖掘任务。其中，简单随机抽样可以在任何地方单独使用，但往往包含在其他复杂抽样形式中；分层抽样在分类问题中运用普遍，其中简单和加权分层抽样都得以运用。静态抽样实施比较方便，但问题是人们不知道抽出的样本是否能够较好地代表总体。 2．动态(Dynamic)抽样动态抽样指需要经过两次或更多次抽样才能达到最终要求，抽样过程是与算法的执行过程和推断交互进行的。它直接利用挖掘工具，能及时提供样本与总体接近程度的信息，而不是问接地考虑样本的统计特性。在动态抽样方式下，决策者或使用者能够在算法效率和模型精确度之间及时作出抉择。数据挖掘中常用的动态抽样技术有序贯抽样和累进抽样，这些都可以称为适应性(Adaptive)抽样。的，最早用于产品的抽样检验(序贯检验)，后来发展成为数理统计学的一个分支。这种方式是序贯地抽取样本点，可以是一个接一个地(onebyone)抽取也可以是一批接一批地(blockbyblock)抽取，根据前面已经抽取的样本点组成的样本来判断样本是否符合要求。如果符合就停止抽样，否则就继续抽取。平均米说，序贯抽样的样本量比简单随机抽样要小。序贯抽样是数据挖掘中最早使用的适应性抽样方法，主要用于关联规则挖掘和聚类分析。它是从一个较小的样本开始，然后按一定规则不断地增加样本含量，对每个样本都要计算相应的模型精确度，直到模型精确度不再有明显改善为止，这时的样本量就认为是最理想的样本量n。i。。样本大小与相应的模型精确度的关系通常用学习曲线 (LearningCurve)刻画。数据挖掘中学习曲线的一般形状如图2。累进抽样易于理解和接受，适于各类问题的挖掘，很多研究已经显示了其优越 324 38数据挖掘领域抽样技术运用中的难题i 喜Jn8《 setsize Training