- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
GRI关联规则与clementine实现
9.3 Clementine的GRI算法及应用(Generalized Rule Induction in Clementine)
GRI关联规则
关联规则
提出:
关联法则最早由Agrawal、Imielinski和Swami于1993年首先提出挖掘顾客事务数据库中项集间的关联规则问题。
定义:
关联规则是发现事务数据库中不同商品(项)之间的联系,这些规则找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。
应用:
发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。
Generalized Rule Induction
概念:
GRI是关联法则的一種算法。
目的:发现数据库间的关联规则,找出某种行为模式。
关联规则语句形式为:
if antecedent(前提)
thenconsequent(结果)
例子:如果一名顾客购买了一把刮胡刀,则有80%的把握说顾客会购买刮胡膏。
GRI从数据中提取一组规则,找出信息容量最高的规则。信息容量的度量采用指数衡量,该指数把规则的普适性(支持度Support)和精确性(置信度confidence)都考虑在内。
Generalized Rule Induction
支持度(Support):指在训练集中满足前提条件记录占全部记录的百分比。
可信度(Confidence):前提条件为真的记录中结论也为真的记录所占的百分比。
比如说,在一百笔交易的数据中,买铁锤也同时买铁钉的人有62笔。假设我们将support值定为60%,那么买铁锤也同时会买铁钉这样的关联已经超过support值了。可是得在进一步分析其confidence值。假设在100笔资料中买铁槌的有80笔,那么confidence值算法是:买铁锤也同时会买铁钉的比数/买铁锤的总比数=62/80=77.5%。
关联规则:产生支持度和可信度分别大於设定的最小支持度和最小可信度的关联规则。
Generalized Rule Induction
算法步骤
Generalized Rule Induction
J-值是GRI算法的核心,主要是利用交互熵的概念,J-值的公式如下(其中 表前项, 表后项):(见258页表9-4,给出了关联规则的生成)
Generalized Rule Induction
要求:要建立GRI规则组,需要
一个以上的In字段和一个以上的Out字段。
输出字段(方向为Out或Both)必须爲字符型字段。
优点:与其他如NeuralNetwork方法不同,规则组通常相当容易解释。
GRI节点也可以处理多重输出字段。
GRI节点既能处理字符型输入字段又能处理数值型输入字段。
Generalized Rule Induction
与Apriori对比
GRI可以处理多重输出栏位。与Apriori不同,GRI既能处理字符型输入字段又能处理数值型输入字段,Apriori要求输入和输出字段均為分类型字段。
对于大型问题,Apriori通常比GRI训练得快。Apriori对可保留规则数量没有专门的限制,可以处理有多达32个前提的规则。Apriori提供五种训练方法,在使数据采矿方法配合可能出现的问题方面有更大的灵活性。
GRI in Clementine
节点和模型的名字
如果用户定义了分割数据集,选择训练集作为建模数据集,并利用测试集对模型评价。
最小的条件支持度
最小的可信度
指定规则的最大前提条件数(即antecedent里条件的个数)。这是限制规则复杂程度的一种方法。如果规则过于复杂或者过于具体,或计算时间过长,可以尝试降低该项设置。
保留在规则集中的规则数,即结果中consequent的数目。规则按照重要性(由GRI算法计算出)递减的顺序排列。规则集所含规则数可能会比指定的要少,特别是在使用严格的信赖准则或支持准则时。
如果选择了该选项,只有真值会出现在最终的规则中
只有支持度和可信度大于上述两个的最小值时,该规则才成立
GRI in Clementine
可以使用type节点定义的输出和输入变量,也可以另外自己选择输入、输出变量。
GRI in Clementine
生成的节点的名字:可以为默认的名称(以输出变量为名),也可以自定义
案例分析
数据情况:
来源:BASKETS1n
变量:
购物篮概貌:
cardid.该购物篮用户的VIP卡卡号
value.该购物篮付款总额.
pmethod.该购物篮付款方法.(card/cash/cheque)
持卡者详细的个人信息:
sex性别
homeown.持有信用卡的人是否是有自己的住房
inc
您可能关注的文档
- GIS实习教程_12.ppt
- GMP对物料管理的要求.ppt
- GE 电涌保护气.ppt
- EDAW:清远市狮子湖高端政务商务休闲平台概念总体规划.ppt
- GIFT礼结礼物包装盒商务ppt模板.ppt
- GPC培训.ppt
- GPS、水准拟合精度评定模型的建立.docx
- GPON实训指导书v2.doc
- GPS原理幻灯片.ppt
- GREE利润表分析.ppt
- 中国国家标准 GB 14287.5-2025电气火灾监控系统 第5部分:测量热解粒子式电气火灾监控探测器.pdf
- 《GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存》.pdf
- GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存.pdf
- 中国国家标准 GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存.pdf
- 中国国家标准 GB/T 19436.2-2025机械电气安全 电敏保护设备 第2部分:使用有源光电保护装置(AOPDs)设备的特殊要求.pdf
- 《GB/T 19436.2-2025机械电气安全 电敏保护设备 第2部分:使用有源光电保护装置(AOPDs)设备的特殊要求》.pdf
- 《GB 27898.4-2025固定消防给水设备 第4部分:消防气体顶压给水设备》.pdf
- GB 27898.4-2025固定消防给水设备 第4部分:消防气体顶压给水设备.pdf
- GB/T 31270.1-2025化学农药环境安全评价试验准则 第1部分:土壤代谢试验.pdf
- 中国国家标准 GB/T 31270.1-2025化学农药环境安全评价试验准则 第1部分:土壤代谢试验.pdf
最近下载
- ISO--14644-1-2015-中文版本文档.pdf VIP
- 氧化铝公司基建施工验收手册.doc VIP
- 2025重庆永川区来苏镇关于村社区专职干部招录8人备考题库完美版.docx VIP
- 北京外国语大学《大学英语》2003年真题.docx VIP
- 2025重庆永川区来苏镇关于村社区专职干部招录8人备考题库汇编.docx VIP
- 新高一必修1第四单元课文+翻译 .pdf VIP
- 华为内部控制手册.pdf VIP
- 全国翻译专业资格(水平)考试--CATTI精品课件.ppt VIP
- HJ 169-2018 建设项目环境风险评价技术导则.docx VIP
- 浙江专升本英语真题 铭远教育 2014年浙江专升本英语真题.doc VIP
原创力文档


文档评论(0)