数据挖掘中抽样技术的应用.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘中抽样技术的应用

知 识 丛 林 数据挖掘中抽样技术的应用 朱梅红1,2 (中国科学院研究生院 管理学院,北京 ;首都经济贸易大学 统计学院,北京 ) 1. 1000802. 100070 摘 要:本文介绍了数据挖掘中抽样技术运用的历史与现状,总结了数据挖掘领域对抽样技术研 究和使用中存在的问题,并指出了数据挖掘中抽样技术未来研究方向和发展前景。 关键词:数据挖掘;静态抽样;序贯抽样;累进抽样;抽样误差 中图分类号: 文献标识码: 文章编号: ( ) O212 A 1002-6487200708-0147-03 随着数据库规模的扩大,大部分数据挖掘算法的计算效 静态抽样也称单阶段抽样或一次性抽样,是根据估计的 率遇到了挑战。作为提高算法计算效率的一种经济、可行、有 误差范围、可靠性等各方面要求,计算一个固定的样本量,所 效的手段,抽样技术已被广泛应用于数据挖掘领域。当然,运 有的后续分析只依据一次性抽取的一个样本。数据挖掘中运 用抽样技术的关键是要有一个好的抽样方案,既能提高效率 用的静态抽样方式都来自于统计抽样调查领域,主要有:简 又能保证结果的正确性。由于抽样和推断方案的设计需要较 单随机抽样 、分层抽样、整群抽样。该抽样方式一般在数据 深的统计学、数据库、计算科学的知识,所以该技术在数据挖 挖掘算法执行之前进行,适合各类挖掘任务。其中,简单随机 掘中的应用研究目前尚有许多需要完善之处。鉴于该技术在 抽样可以在任何地方单独使用,但往往包含在其他复杂抽样 数据挖掘中的重要意义和可行性,以及相关研究的不完善, 形式中;分层抽样在分类问题中运用普遍,其中简单和加权 本文总结该问题的研究历史与现状,指出在研究和使用中存 分层抽样都得以运用;整群抽样在聚类时运用较多。比如, 在的问题,并指出未来的研究和发展方向。对该问题的研究 等 、 、 HeikkiMannila (1994)HannuToivonen (1996)M.Zaki 也将促进统计学抽样调查理论方法的发展和完善。 、 ,都运用一 andS.Parthasarathy(1997)EinoshinSuzuki(2005) 次性抽样方式挖掘了关联规则。静态抽样是从统计学的角度 1 数据挖掘中运用抽样技术的研究现状 静态地判断样本与总体的近似程度。优点是实施比较方便。 缺陷在于,由于没有与挖掘工具结合起来,不能明智地回答 对于数据挖掘中抽样问题的研究,主要集中在国外,国 样本是否足够好。 内只有极个别学者在研究。数据挖掘中运用抽样技术要保证 1.1.2 动态抽样 实现两大目标:提高整个数据挖掘过程的效率、减少估计的 指需要经过两次或更多次抽样才能达到最终要求,抽样 误差(偏差和抽样误差)。而实现两大目标的途径主要有:选 过程与算法的执行过程和推断是交互进行的。它直接利用挖 择适当的抽样方式(保证抽样效率并减少估计的抽样误差), 掘工具,能及时提供样本与总体接近程度的信息,而不是间 适当定义抽样误差并以此确定适当的样本量,设计合适的抽

文档评论(0)

asd522513656 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档