- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术在经济统计中的应用管窥
自从我国实行改革开放的政策后,我国社会经济不断发 展。随着改革开放的深入,十分必要对经济活动进行合情合 理的经济分析。数据挖掘技术作为新的统计方法,用来分析 社会经济的活动状况,受到社会各界的广泛关注。利用数据 挖掘技术分析数据,满足信息使用者的使用需求,推动我国 经济又好又快发展。
、数据挖掘技术的概念
随着我国社会经济的进步和发展,数据信息量越来越 庞大,如何对这些庞大和繁琐的信息进行处理成为经济统计 的难题。传统的数据处理方法已经远远不能满足现在数据使 用者的使用需要,所以数据挖掘技术在这种背景下应运而 生。数据挖掘技术与传统的数据处理方式存在较大的不同之 处。传统的数据处理主要是运用一些数据处理软件,分析经 济统计数据,以此来得出经济发展状况。传统的数据处理是 简单分析各项数据,停留在数据分析的表面,并没有从深度 和广度中进一步分析和处理数据。数据挖掘技术能从庞大的 数据信息库中搜索到有价值有品质的数据信息,然后对这些 信息进行分析和处理,满足信息使用者的使用需求。数据挖 掘技术能解决我国经济发展经济统计困难的窘境,使数据使 用者能真正利用好这些对我国经济发展有用的信息。数据挖
掘技术能改善数据质量,提高数据利用率,加强数据之间深 层次联系。
二、数据挖掘技术的应用 预处理方法
收集到的数据并不一定是齐全的,有些数据是不一致 的,有些数据存在噪声,还有些数据存在空值。数据预处理 方法是一种最基础的处理方法,它能事先把经济统计数据信 息进行预先处理。数据预处理由数据清理、数据集成、数据 变换三部分组成。
数据清理指的是通过一定的方法把经济统计数据信息 中不全的、存在噪声和空值的信息给去掉。一般采取的方法 有四种联盟,分别是均值法、平滑法、预测法和频率统计法。 具体情况具体分析,对于不同的经济统计数据信息要采取适 合的方法。当经济统计数据中的数据存在噪声或数据点是空 值的情况时,可以采取均值法进行数据清理。对于数据中的 噪声和空值,也可以采取平滑法。平滑法和均值法的不同之 处是,平滑法用加权平均数代替了均值法中的平均数,这种 方法充分考虑到数据中的每一个数据对数据结果的权重影 响。使用平滑法能让计算出的结果更加接近真实值。而均值 法是利用均值来填补数据中的空缺,能得到比较高准确度的 统计分析数据。这两种方法都有各自不同的特点,要根据实 际情况,选取适宜的数据处理方法。
数据集成是指把各种不同的数据进行集合,使这些不 同的数据成为一个集体。数据集成要考虑到既能把各种数据 集合起来,又能保证数据的准确性。社会经济的不断发展, 导致数据信息量十分庞大。提供数据信息的来源是多方的, 既有官方提供的数据信息,又有民间提供的信息,又或者是 社会主体提供的数据信息。但数据集成也会出现问题,主要 是两个问题,一个是模式集成问题,另一个是冗余问题。模 式集成问题是指实体识别存在问题。因为数据挖掘的过程 中,多个数据通过多种数据模式呈现出来。冗余问题主要是 指数据存在多余,所以要让数据量保持在一个比较低的水
平,抛去繁琐的数据〔据挖掘的目的就是通过某种方式方
平,抛去繁琐的数据
〔据挖掘的目的就是通过某种方式方
法把经济统计数据以一个最简的状态呈现出来。就数据挖掘 本身而言,它就是对经济统计数据进行深一层次的加工,把 挖掘出来的数据和其他呈现正相关的数据进行简单优化,为 数据使用者提供使用便利,也为数据管理提供管理方便,还 为数据决策者提供决策依据。
数据变换是指通过一定的方式方法把数据变换成符合 信息挖掘要求的数据。数据变换包括数据规范化和数据泛 化。数据规范化中包含了零均值规范化、最大规范化、最小 规范化。数据泛化指用高层次的数据替代低层次的数据。这 其中也包括了数据的连续性。现在的处理方法很难连续处理 数据,所以就出现了数据的离散化。数据的离散化是指通过 划分区间,用标号代替某些数据,以此来达到数据的连续性。 在实际计算过程中,要尽量减少数据的收集量,减少数据的 收集量被称作概念分层。
决策树方法
决策树作为一种快速分类的方法,能使数据以直观的 方式呈现出来。在数据挖掘过程中,十分必要对数据进行系 统的分析。数据经过系统的分析后,就要进行数据输出,分 析数据的输出在数据挖掘中处于很重要的步骤,因为输出的 分析数据的数据形式对信息使用者产生很大的影响。经济决 策的管理者正是依靠这些数据对经济活动作出规划和决策。
运用决策树的分类方法进行分类,首先要先构建起完 善的决策树结构。第一,建立好分析输出的基本模型,运用 训练集建立一棵决策树,并且精简决策树;第二,己经建立 完毕的决策树进行数据分类,分类从决策树的根部开始,逐 渐到树干、树丫,一直到数据的输入满足设置好的条件才停 止,这种过程是一个递归的过程
文档评论(0)