试分析数据挖掘中统计方法及其应用研究.docVIP

试分析数据挖掘中统计方法及其应用研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
试分析数据挖掘中统计方法及其应用研究

试分析数据挖掘中统计方法及其应用研究   作者简介:吴春瑾(1989.10-),女,汉,山东菏泽人,中国人民大学在职研究生,本科,研究方向:统计-数据分析。   摘要:随着我国的经济的不断发展,很多技术也有了很大的进步,对于数据的挖掘技术也是如此,统计方法是数据挖掘技术中最基础的也是最重要的一种统计方法,并且基于此也产生了很多数据挖掘的新的方法,所以研究数据挖掘中统计方法的应用非常的有必要,不仅能够给数据挖掘的工作者提供意见,也可以进一步发现数据挖掘中存在的特征,为今后的研究者提供理论依据。本文就针对数据挖掘中的统计方法以及应用研究进行探讨。   关键词:数据挖掘;统计方法;应用   前言   随着社会的发展,对数据的需求量越来越大,对于原始数据的选择尤其重要。如何选用合适以及高效的数据处理技术,是当前人们需要解决的问题,所以在此之后,人们应用了数据挖掘技术,它的出现给数据的选择带来了新的篇章。   数据挖掘主要是对数据进行采集、数据进行处理分析、数据的知识的表达以及应用服务等几个模块组成。在这几个模块中,基础版块是对数据进行采集,关键是对数据进行处理以及分析,表达形式是数据的规则以及知识,最终目的是知识应用以及服务。现行世界中的很多原始数据都是以及被污染了的,所以在进行数据挖掘的时候肯定会遇到很多不合理的数据,所以要求我们对收集来的数据严格审查,选择什么样的数据,怎么样进行数据处理,如何才能保证在统计分析的应用前提下实现数据挖掘,这都是我们需要考虑的问题。   一、数据挖掘技术   1. 理论   数据挖掘技术,通俗意义上说就是从海量的数据中获取自己需要的有价值的数据。我们现实社会中接触到的大量数据一般都会具有不完整性、随机性、以及模糊性的特征,这些都是没有经过处理的数据。对于我们来说,这些数据的价值并不高,所以必须要通过数据挖掘和分析将这些新型变化为有用的、潜在的、新颖的数据。这个过程就是数据挖掘。   2. 特点   数据挖掘是一种信息的转变过程,包含了很多学科,包括了数据库的统计、神经网络、数据库等内容,在统计方面应用比较广泛。主要步骤是:准备数据――挖掘数据――分析结果和总结。   数据挖掘的主要功能可以有分类数据,对数据进行预测、数据进行总结等。而且其也具有自己的特点:   处理的数据源比较庞大;能够自动获取信息功能;能够描述过去以及对未来进行预测;数据信息反馈及时可靠。   二、数据挖掘方法的研究现状   当前数据挖掘的研究国内外都比较多,在据此的十多年内,很多专家和学者都在进行这方面的工作研究:   (1)基于统计方法的对复杂数据进行挖掘   尚文娟在2005年提出了新的数据统计方法多元可加回归树方法,并且被应用到了复杂的数据挖掘中,形成了复杂数据挖掘的一个框架。在2008年,在原有的复杂数据挖掘上,应瑞飞,提出了聚类分析,改变了经典的Q型因子模型,这是一种新的海量数据的聚类方法,称为Q型因子聚类法。此后学者们还提出了网页分块来抽取数据的数据挖掘方法。   (2)支持向量机基础下的一种挖掘方法   杨铁建做了这方面的研究,写出了其专研成果,胡运红也在2012年综述了国内外这方面的研究。   (3)神经网络基础下的数据挖掘   这主要是针对反馈输入的BP神经网络进行了研究,解决了水文预报中的一些误差问题,为水文预报作出了很大的贡献。   (4)遗传算法下的数据挖掘方法   肖冬荣等人对这方面进行了研究,主要是应用与分析交通运输事故的原因,提高了数据的效率。   三、数据挖掘的内容   当前信息化工程发展迅速,很多城市都在进行数据库的建设,一些城市以已经开始进行建设,一些城市还在筹备之中。小型的数据库,我们熟知的Access、FoxPro都是属于数据库软件,大型数据库一般都是以oracle系统为主。当前很多大型企业都有自己的数据库,还有就是在Web下的数据统计库。这些数据库都可以手机来自不同数据源的数据信息,然后对数据进行清理、变换、集成、然后进行刷新,这就构成了一个大型的数据储存库,为数据的下一步挖掘提供了很好的基础条件。数据挖掘的主要内容有以下:   (1)对时间序列类数据的挖掘   时间序列数据,顾名思义,就是存放随着时间的变化的序列值数据的数据库,一般包括月度、季度以及年度变化的数据库,因为这些数据都是经历了时间的洗礼的,所以更显的弥足珍贵。对于一些国家的经济和社会的发展有着非常重要的意义,给国家的发展提供了很好的参照。还有一些数据是针对企业的财务状况进行反映的。   通过时间序列的数据的挖掘,我们可以了解到研究对象的一个发展趋势以及变化的特征,以及相互之间存在的关系,利用这些数据可以进一步进行分析和研究。   (2)截面数据的挖掘   这个数据

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档