数据挖掘常用算法概述详解.ppt

  1. 1、本文档共94页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联分析 0●● ●●●● ●●●● ●●●●● ●●●● ◆●●●● 关联规则挖掘的提出 关联规则挖掘的典型案例:购物篮问题 在商场中拥有大量的商品(项目),如:牛奶、面包等,客户将 所购买的商品放入到自己的购物篮中。 通过发现顾客放入购物篮中的不同商品之间的联系,分析顾客的 购买习惯 哪些物品经常被顾客购买? 同一次购买中,哪些商品经常会被一起购买? 般用户的购买过程中是否存在一定的购买时间序列? 具体应用:利润最大化 商品货架设计:更加适合客户的购物路径 货存安排 实现超市的零库存管理 用户分类:提供个性化的服务 ●●●●● ●● 其他典型应用 ●相关文献的收集 ●购物篮=文档( Document) ●项目=单词(Word) ●相关网站的收集 购物篮〓词句( Sentences) 项目=链接文档( Document) ●●●●● ●● 什么是关联规则挖掘? ●关联规则挖掘 ●简单的说,关联规则挖掘发现大量数据中项集之间有 趣的关联 在交易数据、关系数据或其他信息载体中,查找存在 于项目集合或对象集合之间的频繁模式、关联、相关 性、或因果结构 应用 ●购物篮分析、交叉销售、产品目录设计、loss- leader analysis、聚集、分类等 关联规则挖掘形式化定义 ●●●●● ●给定 交易数据库 每笔交易是:一个项目列表(消费者一次购买活动中购买的商 品) 查找 所有描述一个项目集合与其他项目集合相关性的规则 应用 护理用品(商店应该怎样提高护理用品的销售?) 家用电器→*(其他商品的库存有什么影响? 在产品直销中使用附加邮寄 ◆●●●● 其它相关概念 ·包含k个项目的集合,称为k项集 ·项集的出现频率是包含项集的事务个数,称为项集的频率、支持计数 或者计数 关联规则的基本形式:前提条件→结论[支持度,置信度] buys(X,“ diapers")→buys(X,“ beers”)[0.5%,60%] ● major(X,“cs")^ takes(x,“DB")→ grade(X,“A")[1%,75%] ●●●●● 关联规则兴趣度的度量值:支持度 推导出的数据间的相关性可称为规则(或模式),对规则兴趣度的描 述采用支持度、置信度概念, ·支持度( Support):规则Ⅹ→Y在交易数据库D中的支持度是交易集 中包含X和Y的交易数与所有交易数之比,记为 support(X→Y),即 support(X→Y)=| T: XUYcT,T∈DH|D|,它是概率P(X∪Y),具 体表示为 同时购买商品X和Y的交易购买商品的交易 同时包含项目集X和Y的交易数 总交易数 ●●●●● ●● 关联规则兴趣度的度量值:置信度 置信度( Confidence),规则X→Y在交易集中的置信度是指包 含X和Y的交易数与包含X的交易数之比,记为 confidence(X→Y), 即 confidence(X→Y)=|{T:X∪Y∈T,T∈DH{TXcT,T∈DH,它 是概率P(XY),具体表示为: 同时购买商品X和Y的交易购买商品Y的交易 同时购买商品X和Y的交易数 最小支持度夥蕞录蓓髮 用户(分析员)不关心可信程度太低的机测家易因而用户需要输入 两个参数:最小支持度和最小置信度。 ◆●●●● 支持度和置信度举例 ●零售商场销售分析: 数据项为商品,记录集合为交易记录集合 规则为:“购买商品X的顾客,同时购买商品Y”,即X→ 设最小支持度为03;最小置信度也为03 分析结果 交易号顾客号商品号数量日期][Iem Itm置信度C支持度S 甲 14 3/495 033 C 5/6/95 33 乙 5/6/95 A66 D 乙 D ●●●●● 频繁项集及其基本特征 频繁项集的定义 如果项集满足最小支持度,则称之为频繁项集(高频项集) 频繁项集的基本特征 任何频繁项集的子集均为频繁项集。例如:ABC是频繁项集,则 AB、AC、BC均为频繁项集 在数据库表分区的情况下,一个项集是频繁的,则至少在一个分 区内是频繁的

您可能关注的文档

文档评论(0)

kefuxing + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档