数据挖掘理论体系研究论文.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘理论体系研究 徐雪琪,李金昌1 (浙江工商大学,浙江 杭州,310018) 摘要:本文论述了统计学与数据挖掘的关系,提出数据挖掘是统计学结合计算机科学在新方向的延伸 和扩展,在此基础上以统计学为数据挖掘理论体系构建的逻辑起点,在遵循理论联系实践、系统性、综合 性、层次性和开放性五项原则基础上,提出了数据挖掘理论体系框架。 关键词:数据挖掘;统计学;理论体系 一、引言 自20世纪80年代后期数据挖掘概念被第一次提出以来,许多不同领域的专家对数据挖 掘表现出了极大的兴趣,纷纷投入其研究之中,产生了许多研究成果。但这些研究成果主要 集中在方法与算法的发现与创新、系统的研发和应用等方面。而且由于各个领域专家(如统 计学领域的专家与人工智能领域的专家)研究的出发点和着重点不同,导致了数据挖掘技术 和方法始终流离在各个学科之间,难以形成系统、科学的理论体系作为其发展的有力支撑。 虽然国内外许多学者纷纷呼吁要建立数据挖掘理论体系来指导和协调数据挖掘技术的发展, 但一直未有相应的研究成果出现。鉴于此,本文以统计学为数据挖掘理论体系构建的逻辑起 点,提出了数据挖掘理论体系框架。 二、数据挖掘理论体系构建的逻辑起点—统计学 Siva Ganesh(2002)认为数据挖掘和统计学的共同特点是从数据中学习,从统计学的视角 看,数据挖掘可以被看成是对大容量复杂数据的计算机自动化的探索和分析,可以被认为是 “智能化统计”,这和我们的观点不谋而合,我们认为数据挖掘是统计学结合计算机科学在新 方向的延伸和扩展。 (一)统计学的发展史是人类社会不断提升科学认识能力的历史,数据挖掘顺应了这一 发展 从统计学的发展过程看,统计学是一门研究客体数量特征和规律的方法论科学,统计学 的每一步前进都标志着人类科学认识能力的提高。原始社会,人类的结绳计数活动标志着统 计的萌芽。在奴隶社会,统治阶级为了对内统治和对外战争,需要征兵征税,开始了人口、 土地和财产的统计。到了封建社会,封建君主和精明的政治家日益认识到统计对于治国强邦 的重要性,统计范畴有所扩大,统计有了一定的发展。到了资本主义社会,随着社会生产力 的迅速发展和社会分工的愈益精细,统计得到了很大发展,除了政治管理的需要外,逐步扩 展到工业、农业、贸易、银行、保险、交通、邮电、海关等经济领域,以及社会、科技和环 境等其他领域。与此同时,统计方法得到了迅速完善和发展,各种新的统计理论和方法如 2 分布理论、小样本t分布理论、 分布理论、区间估计和假设检验理论、决策理论、抽样  F 理论、非参数统计法和多元统计分析法等应运而生。20世纪80年代以后,由于计算机技术 的飞速发展,数据存储能力的无限量增加及网络数据中心(IDC)的推广应用,各行各业都 面临着“数据爆炸”与“知识贫乏”并存的严峻形势,已有的统计技术已无法适应新形势的 需要,数据挖掘正是顺应了这一发展,使传统统计学方法与计算机技术相结合,从而从数据 海洋中认识世界。 (二)统计学是一门处理数据的艺术,数据挖掘也是如此 作者简介:徐雪琪(1974-),女,浙江慈溪人,统计学博士,研究方向为社会经济统计方法与应用、数据 挖掘;李金昌(1964-),男,浙江义乌人,浙江工商大学副校长、教授、博士生导师,研究方向为统计理 论、方法与应用、抽样调查等。 1 根据大英百科全书1993年版,“统计学是一门收集数据,分析数据,并根据数据进行推 断的艺术和科学”。统计学的科学性源于其强大的理论基石,但在应用上更需要强调其艺术 性,即统计理论方法如何得到灵活的运用,研究分析人员应具有什么样的思想和思路等方面。 面对相同的数据材料,不同的研究人员会得出不同的结论,而这种结论的不确定性正是统计 学区别于数学(精确性)的主要方面,也是统计学的魅力所在。与统计学一样,数据挖掘方 法本身是“科学”,但方法的实际应用是“艺术”。数据挖掘虽然借助于计算机强大的计算能 力,其计算过程自动化,但数据挖掘的整个过程从业务分析、数据预处理、挖掘方法的选择、 模式或模型的评价到最后决策的制定都需要人的参与,其结果仍然具有很大的不确定性。

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档