spss数据挖掘学习.docVIP

下载本文档

108
0
约6.07万字
约 69页
2017-07-30 发布于河南
举报
版权申诉

spss数据挖掘学习.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

spss数据挖掘学习

Oracle Data Miner、IBM DB2 InfoSphere Warehouse 和 Microsoft Analysis Services。节点说明选择节点可基于特定条件从数据流中选择或丢弃记录子集。例如，可以选择有关特定销售区域的记录。众数。指定将符合条件的记录包括还是不包括在数据流中。 ??包含。选择包括符合选择条件的记录。 ??丢弃。选择排除符合选择条件的记录。条件。显示将要用于检验每个记录的选择条件，您可以使用 CLEM 表达式进行指定。在窗口中输入表达式，或者单击窗口右侧的计算器（表达式构建器）按钮，使用表达式构建器样本节点选择记录的子集。受支持的样本类型有许多，其中包括分层、聚类和非随机（结构化）样本。取样对于提高性能和选择相关记录组或交易组用于分析会很有用。您可以使用样本节点来选择记录的子集进行分析，或指定要丢弃的记录的比例。受支持的样本类型有许多，其中包括分层、聚类和非随机（结构化）样本。需要使用抽样的原因有以下几点： ??通过评估数据子集上的模型提高性能。通过样本评估的模型通常与利用全部数据集得到的模型一样准确，并且如果提高的性能允许您体验尚未尝试的不同方法，则所得的模型还有可能更为准确。 ??选择相关的记录或交易组来进行分析，例如选择在线购物车（或市场购物篮）中的所有项目，或特定近邻的所有属性。 ??指定单元或观测值以进行随机检查，从而确保质量、防止欺诈和保证安全。注意：如果仅希望将数据分区到训练样本和检验样本以进行验证，则可以改用分区节点。 “平衡”节点纠正数据集中的不平衡，因而它遵循指定的条件。“平衡”指定调整根据指定系数条件为真的记录的比例。您可以使用平衡节点修正数据集中的不平衡，以便它们符合指定的检验标准。例如，假设某个数据集只有两个值（low 或 high），并且 90% 的观测值为 low，而只有 10% 的观测值为 high。很多建模技术处理此类偏倚数据都有困难，因为它们倾向于只学习这些 low 的结果，而忽略 high 的结果（因为这些结果少的可怜）。如果数据平衡很好，low 和 high 结果具有大致相同的数量，那么模型将更有可能找出分辨这两个组的模式。这种情况下，平衡节点对于创建平衡指令，从而减少带有 low 结果的观测值数量非常有用。平衡是通过复制记录，然后根据指定的条件丢弃记录完成执行的。不符合任何条件的记录总是会被传递。因为此过程的工作模式为复制和/或丢弃记录，所以在下游操作中将丢失数据的原始顺序。在向数据流添加平衡节点之前，请确保派生任何与序列相关的值。注意：平衡节点可从条形图和直方图自动生成。例如，您可以平衡数据以显示某一分类字段所有分类的相同比例，如分布图所示。 “合计”节点用汇总和合计的输出记录替代一列输入记录。汇总是一个经常用于减小数据集大小的数据准备任务。继续执行汇总之前，应该花一些时间来清理数据，尤其要关注缺失值。一旦完成汇总，或许会丢失可能有用的缺失值信息。您可以使用汇总节点将一个输入记录序列替换为汇总，即经过汇总的输出记录使用“近因、频数和货币 (RFM) 汇总”节点，您可以采用客户的历史交易数据，删除所有无用数据以及将所有他们保留的交易数据组合成一行，且该行中列出了他们与您上次谈业务的时间、所完成的交易量以及这些交易的总货币价值。通过近因、频率、货币 (RFM) 汇总节点，您可以利用客户的历史交易数据，去除所有无用的数据，然后将他们的所有剩余交易数据合并到一行并以唯一的客户 ID 作为关键字，从而列出他们最后一次与您交易的时间（近因），交易的次数（频率）以及这些交易的总值（货币）。继续执行任一汇总之前，应该花一些时间来清理数据，尤其要关注所有缺失值。一旦使用 RFM 汇总节点标识和变换数据之后，您可以使用 RFM 分析节点执行进一步分析。请注意，如果已通过 RFM 汇总节点运行数据文件，则数据文件将不会再具有任何目标值；因此，在利用它作为使用所有建模节点（如 C5.0 或 CHAID）进行进一步预测分析的输入之前，需要将其与其他客户的数据合并（例如，通过匹配用户 ID）。将 IBM? SPSS? Modeler 中的 RFM 汇总节点和 RFM 分析节点设置为使用独立分级；即，它们分别按近因、频数、货币值对数据进行排序和分级，而无需考虑它们的值或其他两种标准。如果需要进行嵌套分级，对于那些希望在频数（在给定的近因分级中进行排序）和货币值（在给定的近因 - 频数分级中进行排序）中使用同等大小分级的人们，我们提供了一个示例流，介绍如何采用此方式对数据进行分类和分段。有关详细信息，请参阅 Base_Module 子文件夹下 Demos 文件夹中的 RFM_nested.str

您可能关注的文档

文档评论（0）

xcs88858 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：8130065136000003

1亿VIP精品文档

更多 >

spss数据挖掘学习.docVIP