商业智能与数据挖掘技术详述.ppt

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实例3:购物篮里有什么? 事务 项 T100 I1,I2,I5,I3 T200 I2,I4,I1 T300 I2,I3,I5 T400 I1,I2,I4 T500 I1,I3 T600 I2,I3 T700 I1,I3 T800 I1,I2,I3,I5 T900 I1,I2,I3 顾客购物篮中各种商品之间的关系:如买牛奶,也购买面包的可能性有多大? 买铁锤的顾客中有多少人同时也买铁钉? 数学表达:设事务数据库中有9个事务,如右图。试按最小支持度2 次、最小可信度70% 的标准寻找关联规则。 第三十一页,共六十一页。 1.项集:项的集合称为项集。 设I={I?,I2,..,In}是一个项集,其中Ii (i=1,2,3,…,n)可以是购物篮中的一物品,或保险公司的顾客。 K项集 --- 包含K个项的项集被成为K项集。 2.事务:事务是项的集合,设有事务T,则T? I . 对应每个事务有唯一的标识,如TID。又设A是I中项的集合,如果A?T,则称A为事务T的子集。 3.事务集:事务的集合称为事务集。设某事务集为D,则D={T1,T2,…,Tp}, 4.逻辑蕴涵:A ? B, 其中A,B是项集,A ? I,B ? I,A ∩ B=Ф。 二、基本概念 第三十二页,共六十一页。 设A,B是项集,对于事务集D,A∈D,B∈D,A ∩ B=Ф,则 5.置信度(Confidence): 反映在出现项集A的事务集D中,项集B也同时出现的概率。 例如买牛奶顾客中有80%也购买面包,则(牛奶 ? 面包)的置信度为80%。 6.支持度(Support): 描述了A和B这两个项集在所有事务中同时出现的概率。 例如某商场某天共有1000笔业务,其中有100笔业务同时买了牛奶和面包,则(牛奶?面包)的支持度为10%。 两种形式:相对数、绝对数。 第三十三页,共六十一页。 7.关联规则:同时满足最小支持度阈值和最小可信度阈值的逻辑蕴涵式:A ? B 8.寻找强关联规则的步骤(Apriori算法): (1) 寻找事务数据库中所有的频繁项集 支持度大于最小支持度的项集称为频繁项集。 (2)在所有频繁集中寻找强关联规则 a.用每一频繁集生成所有逻辑蕴涵式; b.计算每一逻辑蕴涵式的置信度,并判断是否超过阈值。 第三十四页,共六十一页。 10.关联规则的种类: (1) 根据变量类型分为布尔型和数值型。布尔型考虑的是项集是否存在;而数值型则是量化的关系。 例如:性别=“女” ? 职业=“秘书” 布尔型 性别=“女” ? avg(收入)=2300 数值型 (2)根据数据的维数分为单维和多维。单维关联规则,只涉及到数据的一个维度,如用户购买的物品。多维关联规则涉及到多个维度。 例如:啤酒 ? 尿布 单维 ↘↙ (物品) 性别=“女” ? 职业=“秘书” 多维 ↘ ↙ (性别和职业) 第三十五页,共六十一页。 (3)根据是否允许同一维在规则的左右方同时出现, 多维关联规则:维间关联规则(不允许) 混合维关联规则(允许) 年龄(X,“20...30”)∧职业(X,“学生”)== 购买(X,“笔记本电脑”) 。 年龄、职业、购买,没有一个维是重复出现的,故是维间关联规则。 年龄(X,“20...30”)∧购买(X,“笔记本电脑”) == 购买(X,“打印机”)。 年龄、购买,且购买出现过两次,故是混合维关联规则。 第三十六页,共六十一页。 三、计算实例 P215 四、软件实现 返回 第三十七页,共六十一页。 一、实例 第三节 决策树 第三十八页,共六十一页。 购电脑贷款决策树 age? 30--40 credit rating? no yes fair excellent =30 40 no no yes yes yes 根:X 根节点、属性 枝 属性值 第二层节点 枝 属性值 叶节点(目标变量) student? 第三十九页,共六十一页。 问题:某

文档评论(0)

虾虾教育 + 关注
官方认证
内容提供者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档