- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术应用于经济统计
1预处理方法
收集到的数据并不一定是齐全的,有些数据是不一致的,有些数据存在噪声,还有些数据存在空值。数据预处理方法是一种最基础的处理方法,它能事先把经济统计数据信息进行预先处理。数据预处理由数据清理、数据集成、数据变换三部分组成。
数据清理指的是通过一定的方法把经济统计数据信息中不全的、存在噪声和空值的信息给去掉。一般采取的方法有四种,分别是均值法、平滑法、预测法和频率统计法。具体情况具体分析,对于不同的经济统计数据信息要采取适合的方法。当经济统计数据中的数据存在噪声或数据点是空值的情况时,可以采取均值法进行数据清理。对于数据中的噪声和空值,也可以采取平滑法。平滑法和均值法的不同之处是,平滑法用加权平均数代替了均值法中的平均数,这种方法充分考虑到数据中的每一个数据对数据结果的权重影响。使用平滑法能让计算出的结果更加接近真实值。而均值法是利用均值来填补数据中的空缺,能得到比较高准确度的统计分析数据。这两种方法都有各自不同的特点,要根据实际情况,选取适宜的数据处理方法。
数据集成是指把各种不同的数据进行集合,使这些不同的数据成为一个集体。数据集成要考虑到既能把各种数据集合起来,又能保证数据的准确性。社会经济的不断发展,导致数据信息量十分庞大。提供数据信息的来源是多方的,既有官方提供的数据信息,又有民间提供的信息,又或者是社会主体提供的数据信息。但数据集成也会出现问题,主要是两个问题,一个是模式集成问题,另一个是冗余问题。模式集成问题是指实体识别存在问题。因为数据挖掘的过程中,多个数据通过多种数据模式呈现出来。冗余问题主要是指数据存在多余,所以要让数据量保持在一个比较低的水平,抛去繁琐的数据。数据挖掘的目的就是通过某种方式方法把经济统计数据以一个最简的状态呈现出来。就数据挖掘本身而言,它就是对经济统计数据进行深一层次的加工,把挖掘出来的数据和其他呈现正相关的数据进行简单优化,为数据使用者提供使用便利,也为数据管理提供管理方便,还为数据决策者提供决策依据。
数据变换是指通过一定的方式方法把数据变换成符合信息挖掘要求的数据。数据变换包括数据规范化和数据泛化。数据规范化中包含了零均值规范化、最大规范化、最小规范化。数据泛化指用高层次的数据替代低层次的数据。这其中也包括了数据的连续性。现在的处理方法很难连续处理数据,所以就出现了数据的离散化。数据的离散化是指通过划分区间,用标号代替某些数据,以此来达到数据的连续性。在实际计算过程中,要尽量减少数据的收集量,减少数据的收集量被称作概念分层。
2决策树方法
决策树作为一种快速分类的方法,能使数据以直观的方式呈现出来。在数据挖掘过程中,十分必要对数据进行系统的分析。数据经过系统的分析后,就要进行数据输出,分析数据的输出在数据挖掘中处于很重要的步骤,因为输出的分析数据的数据形式对信息使用者产生很大的影响。经济决策的管理者正是依靠这些数据对经济活动作出规划和决策。运用决策树的分类方法进行分类,首先要先构建起完善的决策树结构。第一,建立好分析输出的基本模型,运用训练集建立一棵决策树,并且精简决策树;第二,已经建立完毕的决策树进行数据分类,分类从决策树的根部开始,逐渐到树干、树丫,一直到数据的输入满足设置好的条件才停止,这种过程是一个递归的过程,是一步一步进行的。在实际决策树应用中,实现决策树停止的有两个条件:一个是一个节点上所有的数据全部属于同一个类别,数据就会停止;另一个是已经没有分类属性可以继续对数据进行进一步的再次分割。决策树的分类主要解决数据挖掘预测和数据分类方面的问题。决策树构建完毕后,可以根据实际数据使用需求,数据使用者对已经构建完毕的决策树进行适当的调整。调整的目的是使决策树分类的数据信息能充分满足信息使用者的需求,减少决策树数据输出的起伏变化,保证决策树的稳定,保证信息质量。
3总结
我国是社会主义市场经济体制,要根据市场动态,制定各项决策并加以实施。经济统计活动为决策制定和实施提供了数据支持,保证了各项经济活动有理可依。数据挖掘技术在经济统计中的应用,能保证经济活动更加全面和具体,能保证经济统计数据的质量。数据挖掘技术拥有广阔的发展前景,能为社会创造出巨大的经济效益,提升社会价值。
作者:王思懿单位:中石化勘探分公司
您可能关注的文档
最近下载
- 颅内镜下肿瘤切除手术护理配合.pptx VIP
- 在线网课学习课堂《临床伦理与科研道德(山东大学)》单元测试考核答案.docx VIP
- 最高人民法院第二巡回法庭法官会议纪要合辑(详尽版).pdf VIP
- 加气混凝土砌块技术交底.docx VIP
- 写字教学讲座.pptx VIP
- 2025年厂内叉车安全使用管理规定3篇 .pdf VIP
- 《逻辑学》(第二版) 第5章 谓词逻辑的自然演绎系统:杜国平 - 复件.ppt VIP
- 17J610-1 特种门窗(一)参考图集.docx VIP
- 小学一年级10以内加减法口算题卡10套1000道(已打印).xls VIP
- 输变电工程环境保护和水土保持全过程管控培训课件.pptx VIP
文档评论(0)