spss数据挖掘 学习.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
spss数据挖掘 学习

Oracle Data Miner、IBM DB2 InfoSphere Warehouse 和 Microsoft Analysis Services。 节点说明 选择节点可基于特定条件从数据流中选择或丢弃记录子集。例如,可以选择有关特定销售区域的记录。 众数。指定将符合条件的记录包括还是不包括在数据流中。 ??包含。选择包括符合选择条件的记录。 ??丢弃。选择排除符合选择条件的记录。 条件。显示将要用于检验每个记录的选择条件,您可以使用 CLEM 表达式进行指定。在窗口中输入表达式,或者单击窗口右侧的计算器(表达式构建器)按钮,使用表达式构建器 样本节点选择记录的子集。受支持的样本类型有许多,其中包括分层、聚类和非随机(结构化)样本。取样对于提高性能和选择相关记录组或交易组用于分析会很有用。 您可以使用样本节点来选择记录的子集进行分析,或指定要丢弃的记录的比例。受支持的样本类型有许多,其中包括分层、聚类和非随机(结构化)样本。需要使用抽样的原因有以下几点: ??通过评估数据子集上的模型提高性能。通过样本评估的模型通常与利用全部数据集得到的模型一样准确,并且如果提高的性能允许您体验尚未尝试的不同方法,则所得的模型还有可能更为准确。 ??选择相关的记录或交易组来进行分析,例如选择在线购物车(或市场购物篮)中的所有项目,或特定近邻的所有属性。 ??指定单元或观测值以进行随机检查,从而确保质量、防止欺诈和保证安全。 注意:如果仅希望将数据分区到训练样本和检验样本以进行验证,则可以改用分区节点。 “平衡”节点纠正数据集中的不平衡,因而它遵循指定的条件。“平衡”指定调整根据指定系数条件为真的记录的比例。 您可以使用平衡节点修正数据集中的不平衡,以便它们符合指定的检验标准。例如,假设某个数据集只有两个值(low 或 high),并且 90% 的观测值为 low,而只有 10% 的观测值为 high。很多建模技术处理此类偏倚数据都有困难,因为它们倾向于只学习这些 low 的结果,而忽略 high 的结果(因为这些结果少的可怜)。如果数据平衡很好,low 和 high 结果具有大致相同的数量,那么模型将更有可能找出分辨这两个组的模式。这种情况下,平衡节点对于创建平衡指令,从而减少带有 low 结果的观测值数量非常有用。 平衡是通过复制记录,然后根据指定的条件丢弃记录完成执行的。不符合任何条件的记录总是会被传递。因为此过程的工作模式为复制和/或丢弃记录,所以在下游操作中将丢失数据的原始顺序。在向数据流添加平衡节点之前,请确保派生任何与序列相关的值。 注意:平衡节点可从条形图和直方图自动生成。例如,您可以平衡数据以显示某一分类字段所有分类的相同比例,如分布图所示。 “合计”节点用汇总和合计的输出记录替代一列输入记录。 汇总是一个经常用于减小数据集大小的数据准备任务。继续执行汇总之前,应该花一些时间来清理数据,尤其要关注缺失值。一旦完成汇总,或许会丢失可能有用的缺失值信息。 您可以使用汇总节点将一个输入记录序列替换为汇总,即经过汇总的输出记录 使用“近因、频数和货币 (RFM) 汇总”节点,您可以采用客户的历史交易数据,删除所有无用数据以及将所有他们保留的交易数据组合成一行,且该行中列出了他们与您上次谈业务的时间、所完成的交易量以及这些交易的总货币价值。 通过近因、频率、货币 (RFM) 汇总节点,您可以利用客户的历史交易数据,去除所有无用的数据,然后将他们的所有剩余交易数据合并到一行并以唯一的客户 ID 作为关键字,从而列出他们最后一次与您交易的时间(近因),交易的次数(频率)以及这些交易的总值(货币)。 继续执行任一汇总之前,应该花一些时间来清理数据,尤其要关注所有缺失值。一旦使用 RFM 汇总节点标识和变换数据之后,您可以使用 RFM 分析节点执行进一步分析。 请注意,如果已通过 RFM 汇总 节点运行数据文件,则数据文件将不会再具有任何目标值;因此,在利用它作为使用所有建模节点(如 C5.0 或 CHAID)进行进一步预测分析的输入之前,需要将其与其他客户的数据合并(例如,通过匹配用户 ID)。 将 IBM? SPSS? Modeler 中的 RFM 汇总节点和 RFM 分析节点设置为使用独立分级;即,它们分别按近因、频数、货币值对数据进行排序和分级,而无需考虑它们的值或其他两种标准。如果需要进行嵌套分级,对于那些希望在频数(在给定的近因分级中进行排序)和货币值(在给定的近因 - 频数分级中进行排序)中使用同等大小分级的人们,我们提供了一个示例流,介绍如何采用此方式对数据进行分类和分段。有关详细信息,请参阅 Base_Module 子文件夹下 Demos 文件夹中的 RFM_nested.str

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档