数据预处理方法在移动通信企业的应用的研究.pdf

数据预处理方法在移动通信企业的应用的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据预处理方法在移动通信企业的应用研究 摘要 现实世界的数据往往是不完整,不一致和有噪音的,致使我们在进行数据 挖掘之前必须进行一定的数据预处理工作。数据预处理的主要内容包括:数据 清洗、数据集成、数据变换和数据规约。本文是在系统分析总结数据预处理各 种方法的前提下,针对某移动通信公司离网用户数据共有70多张表,400多个 属性,最高缺失率为28.3%,含记录最多的表有200多万条的特点,选用了数 据预处理中的10余种方法对数据进行预处理的过程。 本文的主要工作如下: (1)文中首先提出了数据质量问题的概念,并对各种数据质量问题对应的 数据预处理方法进行了总结。 (2)针对28.3%的数据缺失情况,放弃简单删除的传统做法。提出采用数 据插补方法,并对各类数据插补方法进行对比分析,最终选取多重插补算法。 由于应用插补的数据有683715条,属于大规模数据,为了保证插补效果,我们 先通过小样本实验的方法,在比较插补效果后,确定了最佳插补次数,最终完 成插补过程。得到了完整的并且近似真实的数据集。 (3)通过多重插补、属性子集选择、属性集成、属性构造、离散化数据、 规范化数据、数据抽样等方法后,将得到的数据代入数据挖掘模型中,所获取 的信息得到了项目方的充分肯定。从而验证了数据预处理的有效性和意义。 关键词:数据预处理缺失数据多重插补通信数据 Data Methodinthe of Pre..processing Application Telecommunication Mobile Industry ABSTRACT and data data missing data,noisy Numerous data,inconsistent incomplete data is to databefore real pre。process existinthe world。Therefore,itimportant data contentsofdata include research pre-processing mining.Main methodsofdata reduction.Various anddata transformation integration,data of ofchurndata forthecharacteristic are atfirs

文档评论(0)

zz921 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档