- 1、本文档共95页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘常用算法概述分析
关联分析 关联规则挖掘的提出 关联规则挖掘的典型案例:购物篮问题 在商场中拥有大量的商品(项目),如:牛奶、面包等,客户将所购买的商品放入到自己的购物篮中。 通过发现顾客放入购物篮中的不同商品之间的联系,分析顾客的购买习惯 哪些物品经常被顾客购买? 同一次购买中,哪些商品经常会被一起购买? 一般用户的购买过程中是否存在一定的购买时间序列? 具体应用:利润最大化 商品货架设计:更加适合客户的购物路径 货存安排 :实现超市的零库存管理 用户分类 :提供个性化的服务 其他典型应用 相关文献的收集 购物篮 = 文档(Document) 项 目 = 单词(Word) 相关网站的收集 购物篮 = 词句(Sentences) 项 目 =链接文档(Document) 什么是关联规则挖掘? 关联规则挖掘 简单的说,关联规则挖掘发现大量数据中项集之间有趣的关联 在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。 应用 购物篮分析、交叉销售、产品目录设计、 loss-leader analysis、聚集、分类等。 关联规则挖掘形式化定义 给定: 交易数据库 每笔交易是:一个项目列表 (消费者一次购买活动中购买的商品) 查找: 所有描述一个项目集合与其他项目集合相关性的规则 应用 * ? 护理用品 (商店应该怎样提高护理用品的销售?) 家用电器 ? * (其他商品的库存有什么影响?) 在产品直销中使用附加邮寄 其它相关概念 包含k个项目的集合,称为k-项集 项集的出现频率是包含项集的事务个数,称为项集的频率、支持计数或者计数 关联规则的基本形式:前提条件 ? 结论 [支持度, 置信度] buys(x, “diapers”) ? buys(x, “beers”) [0.5%, 60%] major(x, “CS”) ^ takes(x, “DB”) ? grade(x, “A”) [1%, 75%] 关联规则兴趣度的度量值:支持度 推导出的数据间的相关性可称为规则(或模式),对规则兴趣度的描述采用支持度、置信度概念。 支持度(Support):规则X?Y在交易数据库D中的支持度是交易集中包含X和Y的交易数与所有交易数之比,记为support(X?Y),即support(X?Y)=|{T:X?Y? T,T?D}|/ |D|,它是概率P( X?Y ),具体表示为: 关联规则兴趣度的度量值:置信度 置信度(Confidence),规则X?Y在交易集中的置信度是指包含X和Y的交易数与包含X的交易数之比,记为confidence(X?Y),即confidence(X?Y)=|{T: X?Y?T,T?D}|/|{T:X?T,T?D}|,它是概率P( X|Y ),具体表示为: 最小支持度和最小置信度 用户(分析员)不关心可信程度太低的规则,因而用户需要输入两个参数:最小支持度和最小置信度。 支持度和置信度举例 零售商场销售分析: 数据项为商品,记录集合为交易记录集合 规则为:“购买商品X的顾客,同时购买商品Y”,即X ? Y; 设最小支持度为0 .3;最小置信度也为0.3。 分析结果: 频繁项集及其基本特征 频繁项集的定义 如果项集满足最小支持度,则称之为频繁项集(高频项集) 频繁项集的基本特征 任何频繁项集的子集均为频繁项集。例如:ABC是频繁项集,则AB、AC、BC均为频繁项集 在数据库表分区的情况下,一个项集是频繁的,则至少在一个分区内是频繁的 关联规则挖掘的种类 布尔 vs. 数值型关联 (基于 处理数据的类型) 性别=“女” ? 职业=“ 秘书” [1%, 75%] 布尔型关联规则 性别=“女” ? 收入 = 2000 [1%, 75%] 数值型关联规则 单维 vs. 多维 关联 age(x, “30..39”) ^ income(x, “42..48K”) ? buys(x, “PC”) [1%, 75%] buys(x, “Book”) ^buys(x, “Pen”) ? buys(x, “Ink”) [1%, 75%] 单层 vs. 多层 分析 那个品种牌子的啤酒与那个牌子的尿布有关系? 各种扩展 相关性、因果分析 关联并不一定意味着相关或因果 最大模式和闭合相集 添加约束 如, 哪些“小东西”的销售促发了“大家伙”的买卖? 关联规则挖掘的基本过程 找出所有的频繁项集 F,其中对于任何的 Z ? F,在交易集合D中至少 s%的事务包含Z 根据置信度和频繁项集F, 产生关联规则。具体方法如下: conf(X ? Y) = supp(X)/supp(X ? Y) 如果 conf(X ?
您可能关注的文档
- 数据库简答题整理版分析.doc
- 数据库系统与应用模拟试卷和答案分析.doc
- 数据库系统UML建模案例演示分析.ppt
- 数据库系统原理复习分析.ppt
- 数据库系统原理-第四章高级数据库模型分析.ppt
- 数据库系统原理-第十章关系数据库的新课题分析.ppt
- 数据库_课件分析.ppt
- 数据库系统概论-第一章分析.ppt
- 数据库索引原理、应用分析.docx
- 数据库系统概论11分析.ppt
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
最近下载
- 17J008 挡土墙(重力式、衡重式、悬臂式)(最新).pdf
- 造血干细胞移植的护理干预.pptx
- 布料车岗位安全规程.pptx
- YDT 5178-2017 通信管道人孔和手孔图集.docx VIP
- 精品解析:【区级联考】上海徐汇区2019届九年级学习能力诊断(二模)数学试题(解析版).pdf VIP
- 精品解析:广东省佛山市南海区,三水区2022-2023学年九年级上学期数学期末考试(原卷版).pdf VIP
- 一种护筒导向架结构.pdf VIP
- 老旧小区雨污分流改造要点与难点分析.docx VIP
- 鞍钢宪法及后福特主义.pdf
- 精品解析:广东省广州市2022-2023学年九年级上学期期末数学考前模拟试题(三)(解析版).pdf VIP
文档评论(0)