GRI关联规则与clementine实现.pptVIP

下载本文档

45
0
约2.94千字
约 22页
2017-06-13 发布于湖北
举报
版权申诉

GRI关联规则与clementine实现.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

GRI关联规则与clementine实现

9.3 Clementine的GRI算法及应用（Generalized Rule Induction in Clementine） GRI关联规则关联规则提出：关联法则最早由Agrawal、Imielinski和Swami于1993年首先提出挖掘顾客事务数据库中项集间的关联规则问题。定义：关联规则是发现事务数据库中不同商品（项）之间的联系，这些规则找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响。应用：发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。 Generalized Rule Induction 概念： GRI是关联法则的一種算法。目的：发现数据库间的关联规则，找出某种行为模式。关联规则语句形式为： if antecedent（前提） thenconsequent（结果）例子：如果一名顾客购买了一把刮胡刀，则有80％的把握说顾客会购买刮胡膏。 GRI从数据中提取一组规则，找出信息容量最高的规则。信息容量的度量采用指数衡量，该指数把规则的普适性（支持度Support）和精确性（置信度confidence）都考虑在内。 Generalized Rule Induction 支持度(Support):指在训练集中满足前提条件记录占全部记录的百分比。可信度(Confidence):前提条件为真的记录中结论也为真的记录所占的百分比。比如说，在一百笔交易的数据中，买铁锤也同时买铁钉的人有62笔。假设我们将support值定为60%，那么买铁锤也同时会买铁钉这样的关联已经超过support值了。可是得在进一步分析其confidence值。假设在100笔资料中买铁槌的有80笔，那么confidence值算法是：买铁锤也同时会买铁钉的比数/买铁锤的总比数=62/80=77.5%。关联规则:产生支持度和可信度分别大於设定的最小支持度和最小可信度的关联规则。 Generalized Rule Induction 算法步骤 Generalized Rule Induction J-值是GRI算法的核心，主要是利用交互熵的概念，J-值的公式如下(其中表前项，表后项)：（见258页表9-4，给出了关联规则的生成） Generalized Rule Induction 要求：要建立GRI规则组，需要一个以上的In字段和一个以上的Out字段。输出字段（方向为Out或Both）必须爲字符型字段。优点：与其他如NeuralNetwork方法不同，规则组通常相当容易解释。 GRI节点也可以处理多重输出字段。 GRI节点既能处理字符型输入字段又能处理数值型输入字段。 Generalized Rule Induction 与Apriori对比 GRI可以处理多重输出栏位。与Apriori不同，GRI既能处理字符型输入字段又能处理数值型输入字段，Apriori要求输入和输出字段均為分类型字段。对于大型问题，Apriori通常比GRI训练得快。Apriori对可保留规则数量没有专门的限制，可以处理有多达32个前提的规则。Apriori提供五种训练方法，在使数据采矿方法配合可能出现的问题方面有更大的灵活性。 GRI in Clementine 节点和模型的名字如果用户定义了分割数据集，选择训练集作为建模数据集，并利用测试集对模型评价。最小的条件支持度最小的可信度指定规则的最大前提条件数（即antecedent里条件的个数）。这是限制规则复杂程度的一种方法。如果规则过于复杂或者过于具体，或计算时间过长，可以尝试降低该项设置。保留在规则集中的规则数，即结果中consequent的数目。规则按照重要性（由GRI算法计算出）递减的顺序排列。规则集所含规则数可能会比指定的要少，特别是在使用严格的信赖准则或支持准则时。如果选择了该选项，只有真值会出现在最终的规则中只有支持度和可信度大于上述两个的最小值时，该规则才成立 GRI in Clementine 可以使用type节点定义的输出和输入变量，也可以另外自己选择输入、输出变量。 GRI in Clementine 生成的节点的名字：可以为默认的名称（以输出变量为名），也可以自定义案例分析数据情况：来源：BASKETS1n 变量：购物篮概貌: cardid.该购物篮用户的VIP卡卡号 value.该购物篮付款总额. pmethod.该购物篮付款方法.（card/cash/cheque）持卡者详细的个人信息: sex性别 homeown.持有信用卡的人是否是有自己的住房 inc