商业数据分析(第3版)第9章.pptxVIP

  • 17
  • 0
  • 约4.8千字
  • 约 64页
  • 2023-07-19 发布于安徽
  • 举报
预测性数据挖掘第9章 引言观测又叫做记录,是与单个实体有关的一组变量的记录值,经常表现为电子表格或数据库中的一行数值。有监督的学习:在有监督性的学习中,结果变量“监督”或指导着如何预测未来结果的“学习”过程。有监督学习方法:连续结果估计二元属性结果 引言数据挖掘过程包括以下几个步骤: 1、数据抽样。从与所研究问题有关的数据中抽取样本。 2、数据预处理。对采集的数据进行整理,以为正式的建模准备合适的数据形式。 3、数据分割。所谓数据分割,就是把样本数据切分成三组:训练集,验证集,以及为检验数据挖掘算法性能的测试集。 4、模型构建。针对训练数据集,运用合适的数据挖掘技术(比如:k-最近邻法,回归树),实现有目的的数据挖掘任务(如分类、估计)。 5、模型评价。根据构建的模型在训练数据集和验证数据集中表现的比较,对模型进行评估。 数据抽样、预处理与分割 数据抽样、预处理与分割处理大批量数据(数万个或数百万个观察)的最好方法,是抽取具有代表性的样本(数千个或万把个观察)进行分析。代表性样本表现在,从样本分析中得出的结论与全部总体数据分析得到的结论相同。样本数据必须足够大,以使包含的信息充分,可是也要足够小,以使数据处理起来便捷快速。一般来说,使用的数据量大,能使数据挖掘算法更有效。 数据抽样、预处理与分割一般来讲,样本中最好要包括尽可能多的变量。在使用描述统计和

文档评论(0)

1亿VIP精品文档

相关文档