关联分析—购物篮分析.doc

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
5.1 问题提出 考虑下面的情形,一个商店想对客户数据库进行分析,了解在购物时哪些商品会一起购买。为此,商店选择了对客户数据库样本进行购物篮分析。 使用的数据集合:SAMPSIO.ASSOCS ASSOCS中的变量列表 数据集合ASSOCS包含了1001个客户所购买的食品,其中20种见下表: Code Product apples artichok avocado baguette bordeaux bourbon chicken coke corned_b cracker ham heineken herring ice_crea olives peppers sardines soda steak turkey Apple artichokes avocado baguettes wine bourbon chicken cola corned beef cracker ham beer fish ice cream olives peppers sardines soda water steak turkey 1001个客户中,每个客户均购买了7个物品,因而总共有7007行。数据集中每一行也就代表了客户所购产品的一个组合。在大多数数据集合中,并不是所有客户都购买了相同数量的产品。 创建初始流 按下图样式建立流程图: a.设置输入数据源(Input Data Source)节点 1 打开输入数据源Input Data Source)节点。 2 从文件夹SAMPSIO中选择数据集合ASSOCS。 3 点击变量(Variables)标签。 4 设置变量CUSTOMER的模型角色为身份(Id) 5 设置变量PRODUCT的模型角色为目标变量(target)。 6 设置变量TIME的模型角色序列(sequence)。 注:变量TIME用于识别购买食品的先后次序。此例中所有商品均在同时购买,因此在这儿的次序只表明商品在购买时的登记先后次序。当考虑这种先后次序时,关联分析就是所谓的序列分析。 7 关闭输入数据源(Input Data Source)节点并保存所做改变。 b. 设置关联(Association)节点 8打开关联(Association)节点,按缺省变量(Variables)标签处于活跃状态。查看这一标签。 9选择综合(General)标签,这个标签可让你调整分析模式和设置所生成的关联规则数量。 领会并选择分析模式 仔细察看这个对话框所示分析模式。 分析模式的缺省设置是按上下文By Context。这种分析模式使用输入数据源(Input Data Source)节点中设定的信息确定合适的分析形式。如果输入数据集合包含: 一个身份(ID)变量和一个目标(target)变量,节点自动执行关联分析。 一个序列变量其状态为使用(use),节点则执行序列分析。序列分析要求模型中必须具有一个变量其模型角色是序列(sequence),关联分析忽略这种排序。 因为输入数据源里有一个序列变量,缺省分析模式将是序列分析。序列分析将在后面部分涉及,现在我们要做一个关联分析。 10把分析模式改为 Association. 11关闭关联(Association)节点,在弹出对话框选择Yes保存改变。 General标签中其他可用的选项包括 支持关联的最小交易频数(Minimum Transaction Frequency to Support Associations)- 为物品集合间是否关联(同时出现在数据库中)设置最小判定标准。缺省设置是5%。 关联中物品集合的最大物品数(Maximum number of items in an association)- 设定用于分析的物品集合包含物品的最大数量。缺省设置为4。 规则产生的最小可信度(Minimum confidence for rule generation)- 设置产生规则的最小可信度。缺省值是10%。当执行序列分析时,此选项不可用。 在此例中,均使用缺省设置。关闭关联(Association)节点。既然没有作任何的改变,也就不用保存。如果弹出视窗让你选择,请选择No。 12从关联(Association)节点处运行流程图并查看输出结果。 首先给出的规则(Rules)标签显示如下: 规则(Rules)标签包含每条规则的信息。考虑商品A和B所组成的规则A=>B,并查看以下数据: 规则A=>B的支持度(%)是所用客户中同时购买商品A和商品B的百分数。支持度是数据库中一条规则发生的频繁程度的测度。 规则A=>B的可信度是所用客户中同时购买商品A和商品B的人数和购买商品A的人数的比率。 规则A=>B的提升值是关联强度的测量。如果规则A=>B

文档评论(0)

ranfand + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档