特征选择方法在建模中的应用.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
特征选择方法在建模中的应用

特征选择方法在建模中的应用 ——以CHAID 树模型为例 华东师范大学 邝春伟 特征选择是指从高维特征集合中根据某种评估标准选择输出性能最优的特征子集,其目的是寻求保持数据集感兴趣特性的低维数据集合,通过低维数据的分析来获得相应的高维数据特性,从而达到简化分析、获取数据有效特征以及可视化数据的目标。 目前,许多机构的数据均已超载,因此简化和加快建模过程是特征选择的根本优势。通过将注意力迅速集中到最重要的字段(变量)上,可以降低所需的计算量,并且可以方便地找到因某种原因被忽略的小而重要的关系,最终获得更简单、精确和易于解释的模型。通过减少模型中的字段数量,可以减少评分时间以及未来迭代中所收集的数据量。 减少字段数量特别有利于Logistic 回归这样的模型。 SPSS Modeler 是一个非常优秀的数据挖掘软件。它的前身是SPSS Clementine及PASW Modeler。该软件的特征选择节点有助于识别用于预测特定结果的最重要的字段。特征选择节点可对成百乃至上千个预测变量进行筛选、排序,并选择出可能是最重要的预测变量。最后,会生成一个执行地更快且更加有效的模型—此模型使用较少的预测变量,执行地更快且更易于理解。 案例中使用的数据为“上海高中生家庭教育的调查”,包含有关该CY二中的 304名学生参与环保活动的信息。该数据包含几十个的字段(变量),其中有学生年龄、性别、家庭收入、身体状况情况等统计量。其中有一个“目标”字段,显示学生是否参加过环保活动。我们想利用这些数据来预测哪些学生最可能在将来参加环保活动。 案例关注的是学生参与环保活动的情况,并将其作为目标。案例使用 CHAID 树构建节点来开发模型,用以说明最有可能参与环保活动的学生。其中对以下两种方法作了对比: ??不使用特征选择。数据集中的所有预测变量字段 均可用作 CHAID 树的输入。 ??使用特征选择。使用特征选择节点选择最佳的 4 个预测变量。然后将其输入到 CHAID 树中。 通过比较两个生成的树模型,可以看到特征选择如何产生有效的结果。 CHAID 或卡方自动交互效应检测是一种通过使用卡方统计量识别最优分割来构建决策树的分类方法。 CHAID 首先检查每个预测变量和结果之间的交叉列表,然后使用卡方独立性测试来检验显著性。如果以上多个关系具有显著的统计意义,则CHAID 将选择最重要(p 值最小)的预测变量。如果预测变量具有两个以上的类别,将会对这些类别进行比较,然后将结果中未显示出差异的类别合并在一起。此操作通过将显示的显著性差异最低的类别对相继合并在一起来实现。当所有剩余类别在指定的检验级别上存在差异时,此类别合并过程将终止。对于集合预测变量,可以合并任何类别;对于有序集合预测变量,只能合并连续的类别。 在一个空流工作区中,放置一个 Statistics 文件源节点。将此节点指向案例数据文件 “上海高中生家庭教育的调查”。 添加类型节点。在其“类型”选项卡上,将变量 “q23是否参与过环保活动”的方向更改为输出。将学生 ID 字段的方向更改为无。将所有其他字段的方向设置为输入。 为流添加特征选择建模节点。在此选项卡上,我们指定要筛选的规则和标准,或要筛选的字段。 例如在重要性指标中,我们可以设置“重要”的最小值及“一般重要”的最小值。执行流以生成特征选择模型块。 在模型管理器中右键单击模型块,选择浏览以查看结果。 顶部面板显示了所找到的对预测非常有用的字段。这些字段基于重要性排序。底部面板显示了从分析中筛选出来的字段及筛选的原因。 通过检查顶部面板中的字段,可以确定在随后的建模会话中要使用哪些字段。 使用生成的特征选择模型,将其添加到流中,并将其与类型节点相连接。 双击该节点并使用模型浏览器以选择要在下游使用的字段。虽然最初已将 12个字段识别为重要字段和一般重要字段,但我们希望进一步减少预测变量集合的数目。 使用复选标记选中前 4个预测变量: 性别 q17(加强环保意识教育 的重要性 ) q5 (整理房间经常性 ) q3 (征得父母同意? ) 目标变量及4个预测变量的详细情况 目标变量(应变量) Q23.您有没有为保护环境做过什么事情?

文档评论(0)

wumanduo11 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档