数据预处理方法在移动通信企业的应用探究.pdfVIP

  • 19
  • 0
  • 约6.19万字
  • 约 51页
  • 2015-10-15 发布于安徽
  • 举报

数据预处理方法在移动通信企业的应用探究.pdf

数据预处理方法在移动通信企业的应用研究 摘要 现实世界的数据往往是不完整,不一致和有噪音的,致使我们在进行数据 挖掘之前必须进行一定的数据预处理工作。数据预处理的主要内容包括:数据 清洗、数据集成、数据变换和数据规约。本文是在系统分析总结数据预处理各 种方法的前提下,针对某移动通信公司离网用户数据共有70多张表,400多个 属性,最高缺失率为28.3%,含记录最多的表有200多万条的特点,选用了数 据预处理中的10余种方法对数据进行预处理的过程。 本文的主要工作如下: (1)文中首先提出了数据质量问题的概念,并对各种数据质量问题对应的 数据预处理方法进行了总结。 (2)针对28.3%的数据缺失情况,放弃简单删除的传统做法。提出采用数 据插补方法,并对各类数据插补方法进行对比分析,最终选取多重插补算法。 由于应用插补的数据有683715条,属于大规模数据,为了保证插补效果,我们 先通过小样本实验的方法,在比较插补效果后,确定了最佳插补次数,最终完 成插补过程。得到了完整的并且近似真实的数据集。 (3)通过多重插补、属性子集选择、属性集成、属性构造、离散化数据、 规范化数据、数据抽样等方法后,将得到的数

文档评论(0)

1亿VIP精品文档

相关文档