数据挖掘领域抽样技术运用中难题.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
38 数据挖掘领域抽样技术运用中的 难题 中国首都经济贸易大学统计学院朱梅红 一、引言 20世纪80年代末和90年代初,随着信息技术的发展,数据的存取更加方便,很 多领域都积累了大量的数据,形成了大规模的数据库或数据仓库。人们需要从这些 大量的数据中提取或“挖掘”有用的知识,从而促成了数据挖掘(Data Mining,DM)技 术的诞生。数据挖掘是集统计学、数据库、信息科学、机器学习、可视化等多种学科的 一门交叉学科,主要任务是发现数据中隐含的模型或模式。具体来说,包含分类或预 测、聚类、关联分析、序列模式发现、孤立点探测等。在模型或模式发现过程中,由于 数据规模过于庞大,为使算法得以运行或提高运算效率,人们往往针对抽样数据进行 挖掘,因而也广泛应用了抽样技术。数据挖掘中的抽样技术继承并发展了统计学领 域的抽样技术,经过十几年的发展,数据挖掘领域的抽样技术日臻成熟,但仍有许多 难题需要解决。本文首先分析数据挖掘领域抽样技术运用中的一些难题,然后指出 其未来的研究和发展方向。 二、数据挖掘领域抽样技术运用中的难题 在数据挖掘过程中运用抽样技术时,主要有四个难题:一是抽样误差的定义与测 度,二是样本量的确定,三是抽样效果与效率的衡量,四是抽样程序的设计。而前三 个问题都与抽样的方式有关,所以这里先介绍一下数据挖掘中的抽样方式,然后对各 个难题逐个分析。 (一)数据挖掘中常用的抽样方式 数据挖掘中常用的抽样方式如图1所示。 323 2007年中日经济统计学国际会议论文集 图1数据挖掘中常用的抽样方式 1.静态(Static)抽样 静态抽样也称单阶段抽样或一次性抽样,是根据估计的精确性、可靠性等要求, 计算一个固定的样本量,所有的后续分析只针对一次性抽取的这个样本而展开。数 据挖掘中运用的静态抽样方式都来自于统计抽样调查领域,主要有:简单随机抽样、 分层抽样、系统抽样等。该抽样方式一般在数据挖掘算法执行之前进行,适合各类挖 掘任务。其中,简单随机抽样可以在任何地方单独使用,但往往包含在其他复杂抽样 形式中;分层抽样在分类问题中运用普遍,其中简单和加权分层抽样都得以运用。静 态抽样实施比较方便,但问题是人们不知道抽出的样本是否能够较好地代表总体。 2.动态(Dynamic)抽样 动态抽样指需要经过两次或更多次抽样才能达到最终要求,抽样过程是与算法 的执行过程和推断交互进行的。它直接利用挖掘工具,能及时提供样本与总体接近 程度的信息,而不是问接地考虑样本的统计特性。在动态抽样方式下,决策者或使用 者能够在算法效率和模型精确度之间及时作出抉择。数据挖掘中常用的动态抽样技 术有序贯抽样和累进抽样,这些都可以称为适应性(Adaptive)抽样。 的,最早用于产品的抽样检验(序贯检验),后来发展成为数理统计学的一个分支。 这种方式是序贯地抽取样本点,可以是一个接一个地(onebyone)抽取也可以是一 批接一批地(blockbyblock)抽取,根据前面已经抽取的样本点组成的样本来判断样 本是否符合要求。如果符合就停止抽样,否则就继续抽取。平均米说,序贯抽样的样 本量比简单随机抽样要小。序贯抽样是数据挖掘中最早使用的适应性抽样方法,主 要用于关联规则挖掘和聚类分析。 它是从一个较小的样本开始,然后按一定规则不断地增加样本含量,对每个样本都要 计算相应的模型精确度,直到模型精确度不再有明显改善为止,这时的样本量就认为 是最理想的样本量n。i。。样本大小与相应的模型精确度的关系通常用学习曲线 (LearningCurve)刻画。数据挖掘中学习曲线的一般形状如图2。 累进抽样易于理解和接受,适于各类问题的挖掘,很多研究已经显示了其优越 324 38数据挖掘领域抽样技术运用中的难题i 喜Jn8《 setsize Training

文档评论(0)

0520 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档