厦门大学数据挖掘数据准备参考.pptVIP

  • 2
  • 0
  • 约5.51千字
  • 约 58页
  • 2018-03-15 发布于贵州
  • 举报
厦门大学数据挖掘数据准备参考

第三章 数据准备 §3.1 问题的提出 §3.2 数据选择 §3.3 数据预处理 §3.4 数据变换 §3.1 问题的提出 我们在上面已经提及到,随着各种技术的不断发展,收集数据的技术和渠道日益广泛,比如银行业通过信用卡消费记录,连锁超市通过POS机记录销售情况,企业通过专题市场调查或者直接通过向外购买数据来搜集信息等等,这些收集到的数据储存到企业的数据库或数据仓库中,构成了企业用于数据挖掘的源数据.但是由于各种各样的原因,如市场调查中的无回答,数据输入错误等,导致了源数据的各种质量问题.例如,数据缺失、异常点的出现等,都会为数据的挖掘带来困难. 数据准备是模型开发过程中最重要的步骤之一.从最简单的分析到最复杂的模型,所使用的数据质量是项目成功的关键.好的数据和有效的技术一样,决定着一个模型产生有力结果的能力.因此,在本章我们探讨数据的准备. §3.2 数据选择 一、数据读取 如果所需的数据是从外部数据源或另外一个的内部数据源获得的,那么这些数据必须是ASCII格式的.ASCII文件也就是平面文件(flat file)或文本文件,行记录或观察样本,列或字段表示与记录相关的特征或变量.ASCII文件有两种基本的长度记录格式,即固定长度格式和可变长度格式. 二、原始数据的表述

文档评论(0)

1亿VIP精品文档

相关文档