Logistic回归节点_中国统计网.pptVIP

  • 13
  • 0
  • 约3.32千字
  • 约 31页
  • 2017-08-10 发布于河北
  • 举报
Logistic回归节点_中国统计网.ppt

对于已建立模型,选择过滤节点,即选取对目标变量有重要影响的因变量进行回归,而不考虑哪些不太重要的因变量。 双击数据审查节点,在数据审查节点进入数据流区域后,双击进行设定并运行。 可以发现logtoll变量存在50%以上的数据缺失,通过指定给出处理缺失值的办法。 双击Logistic节点,在Logistic节点进入数据流区域后,双击进行设定并运行。 原始未经预测的数据,仅作为对照数据,实际意义不大。 相对于客户流失比例而言,未流失客户比例不是我们关注的重点,故在此,我们更希望29.9%的预测正确率比例提升 若能将客户流失的比例减少一半,公司经营也即将大幅提升 * * * * * * * * * * * * 数据挖掘与商业智能研究小组 统计分析、数据挖掘与商业智能应用研究小组 中国统计网 日期:2009年05月25日 Logistic回归,也称定性变量回归,是根据输入域值对记录进行分类的统计方法。它类似于线性回归,但是目标字段使用字符型字段而不是数值型字段。 Logistic回归建立一组方程,把输入域值与输出字段每一类的概率联系起来。一旦生成模型,便可用于估计新的资料的概率。对每一记录,计算其从属于每种可能输出类的概率。概率最大的目标类被指定为该记录的预测输出值。 要建立Logistic回归模型,需要至少一个In字段元,恰好需要一个字符型Out字段。设置为Both或者None的字段将被忽略。项目中使用的字段类型必须被充分实例化。其中,字符串数据长度一般不能超过8个字符,当存在多于8个字符的长字段时,可以用Reclassify 节点进行记录。 Logistic 模型精确程度较高. 他们既可以处理字符型输入字段,也可以处理数值型输入字段。 模型会给出所有目标类的概率,这样很容易确定“次优估计”(second-best guess)。 模型名称 自动(Auto)选择该选项后,模型名称将根据目标域名自动生成。这是预设的设置。 自定义(Custom):选择该选项为可以为节点创建的模型指定用户定义的模型名称。 使用分割数据(Use partitioned data):如果用户定义了分割数据集,如果用户定义了分割数据集,选择训练集作为建模数据集,并利用测试集对模型评价。 建模方式(Procedure):指定Logistic建模方式。有多重选择和二元选择两种。 多重选择模型(Multinomial) 建模方法(Method):提供五种不同的方法,分别是enter、stepwise、forwards、backwards、backwards stepwise。 设定基类(Base category for target):设定目标变量的一个分类值作为基准类别。 模型类型(Model type):有三个选项定义模型中的术语。Main effects (主效应)模型仅包括各个输入字段,不检验输入字段之间的交互作用。Full Factorial(完全因子) 模型除了包括各输入字段的主要效应外,还包括所有的交互作用。完全因子模型能够更好的捕捉复杂关系,但是也更难解释,更容易出现过度拟和问题。第三个是custom模型,需要在model terms里自定义。 二元选择模型(Binomial) 建模方法(method):提供三种不同的方法,分别是enter、forwards和backwards。 输入分类变量(categorical inputs):输入分类变量,可对分类之间的差异进行假设检验,还可以设定目标分类变量的基准类别。 尺度(Scale). 可以指定一个离散度量值用于修正参数协方差阵的估计。Pearson 利用Pearson 卡方统计量估计此离散度量值。用户也可根据需要,指定自己的度量值,但该值必须为正。 附加所有概率( Append all probabilities ):如果选择了该选项,输出字段的每一类的概率将被添加到该节点处理的每一记录。如果没有选择该选项,则只有预测类的概率被添加到该节点处理的每一记录。 异常值容忍度( Singularity tolerance )。指定用于检查异常值的容忍度。 收敛度(Convergence):这些选项可以控制模型收敛参数。要了解更多内容,参见“Logistic回归收敛选项”。 输出(Output):这些选项允许选择在节点创建的生成模型高级输出中出现的统计量。 设置Logistic回归模型估计的收敛参数 最大迭代次数(Maximum iterations)。指定估计模型的最大迭代次数。 最大逐步二分法(Maximum step-halving):逐步二分法(step-halving)是Logistic回归中处理估计过程中的复杂问题的一种技术。在正常情况下,应当使用预设设置。 对数概

文档评论(0)

1亿VIP精品文档

相关文档