9 最近邻元素.ppt

9 最近邻元素

我们得到,newCar 的预测销售额是 80.818,newTruck 的预测销售额是 42.455。 那么,这些预测值计算的是否合理,我们所建的模型怎么样呢? 效果分析 本例中的目标变量是连续型变量,上例中预估分类模型(目标变量是离散型)的方法在此处不再适合。我们可以通过判断该模型的统计量 Rsquare 的值,来评定所建模型的好坏。 Rsquare = 1- errorSummary/ ( Variance *( N -1) ),其中, errorSummary:代表建模后得到的错误合计; Variance:代表 Training (训练)数据的 Variance(方差)值; N:代表 Training 数据中有效的个案个数; 最近邻元素 模型简介 最近邻元素分析是一种针对样本实例进行的分类算法,它根据某些样本实例与其他实例之间的相似性进行分类。 将两个实例间的距离作为他们的“不相似度”的一种度量标准。相互临近的实例被称之为“Neighbors(邻居)” 支持两种距离,Euclidean Distance( 欧氏距离法 ) 和 City-block Distance(城区距离法)。 当向模型中引入一条新的实例,它和模型当中已经存在的每一个实例之间的距离将会被计算出来。这样,与这条新实例最相近的邻居就被区分出来了。 图 1 描述了一个目标变量是离散型变量的最近邻模型, 红色五角星是新实例,白色和蓝色的点是模型当中已有实例。与他最近的邻居们都被用红线连接了起来。 K的作用 最近邻居数量 K 在最近邻元素分析模块建模中起到了很大的作用。K 的取值不同,分类结果不同。 如图 1 所示,每个实例根据其目标变量取值(0 和 1)的不同,被分入两个类别集合。当 K=5 时,目标变量取值为 1 的实例数更多,所以新实例被分到类别 1 当中。 当 K=9 时,新实例被分到类别 0 当中。 Statistics 的最近邻元素分析模型既允许用户指定固定的 K 值,也支持根据具体数据自动为用户选择 K 值。 功能 支持 feature selection(预测变量选择)的功能,允许在用户输入的众多的预测变量当中,只选择一部分预测变量用作建模,使得建立的模型效果更好。 允许建立目标变量是连续型变量的模型,在这种情况下,目标变量的平均值或者中位数值将作为新的实例目标的预测值。 商业案例 某汽车制造厂商的研发部门制定出两款新预研车型的技术设计指标。 厂商希望将其和已经投放到市场上的已有车型的相关数据进行比较,从而分析新车型的技术指标是否符合预期,并预测新车型投放到市场之后,预期的销售额多少。 在本文当中,对每一个车型实例,我们都用个案来称呼它。 Car_sales.sav 表 1.两款新预研车型的技术指标数据 增加新记录 标记新记录 再增加一个新变量 partition 区分 Training( 训练数据子集 ) 和 Holdout( 测试 ) 子集,我们将已有车型视为训练数据子集,而新车型为测试子集。 由于算法中规定:partition 0 表示为训练数据 最近邻元素分析模型的分析过程 第一次分析 本次分析过程只寻找 K 个最近的邻居,而不做分类和预测,所以我们没有选择目标变量。 为了图形显示更加清晰,本步骤选择含有少数个案的数据集进行示例。 分析结束后,“Output 输出视图”当中,双击新产生的 Model Viewer(模型视图),打开模型视图浏览器 Predictor Space (预测变量空间)视图 三维视图,图中的三条轴分布代表了 Horsepower (马力)、Engine size(引擎尺寸)、Price in thousands(价格)三个预测变量。 该视图是可交互的,用户可以通过鼠标点击和拖拽,将视图旋转到更好的视角来观察个案样本点在空间中的分布。 图中的每个点都代表 training(训练分区)数据集中的个案,用圆形表示。只有两个新车型个案属于 focal(焦点)个案,其外形被红色包裹,其余已有车型都不是焦点个案。可以看到,每一个焦点个案都用红线连接着 3 个最近邻居。 Peers Chart(对等图) 初始内容将显示每一个焦点个案的 3 个邻居们在每一个预测变量上的取值分布。系统默认将在前 6 个用户选择的预测变量上显示数值。 当我们在预测变量空间子视图当中用鼠标点击选择某个点,在右边的 Peers Chart(对等图)中,将显示该个案及它的 3 个邻居们在每一个预测变量上的取值分布。 每一个单独的图表显示了某个预测变量的一维空间。比如,newCar 处于 Engine size(引擎尺寸)图表的最下端,说明它引擎尺寸比邻居们的都要小。 分析过程—预估汽车类型 运行设置时增加一个目标变量,Vehicle type(汽车

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档