- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘常用算法
第5章 数据挖掘中常用算法 5.1 Apriori算法 关联规则的分类 基于规则涉及的值类型 布尔型和数值型 例:面包 = 牛奶 表示买面包的顾客买牛奶 布尔型 例:age(30 … 39) = buy(笔记本电脑) age(20 … 29) = buy(台式电脑) 数值型 基于规则中数据抽象层分类 单层关联规则和多层关联规则 例: age(30 … 39) = buy(笔记本电脑) age(30 … 39) = buy(电脑) 电脑层次高于笔记本电脑,属于多层关联 基于规则中涉及到数据的维数分类 单维和多维 关联规则如 A → B 该规则值得信赖的程度,用置信度表示 该规则的有效性,用支持度表示 例如在考察客户购买电脑与购买软件之间的关联关系。100名学生,其中60名买了电脑,而这60名学生都又买了软件,则“买了电脑必再买软件”这个规则的置信度为 这个值越大,说明该规则越可信。 该规则的实用性,即支持度 当学生数是1000人中有60人买电脑同时他们又买了软件,则规则的支持度则变为6%。 虽然置信度没有变,但是支持度变小,说明该规则的普遍适用性减小,支持力度变小。 Apriori算法 步骤分为两步: 找出所有频繁项集。既支持度高于设定阈值的项集,算法的核心。 建立强规则。置信度高于阈值的规则。 基本概念 包含k个项目的集合,称为k-项集 项集的出现频率是包含项集的个数,称为项集的频率、支持计数或者计数 最大频繁项集的求解 频繁项集的定义 如果项集满足最小支持度,则称之为频繁项集 (高频项集) 频繁项集的基本特征 任何频繁项集的非空子集均为频繁项集。 例如:ABC是频繁项集,则AB、AC、BC均为频繁项集。 反之:如AB不是频繁项集,则ABC不可能是频繁项集 最大频繁项集的求解 是一种称作逐层搜索的迭代方法。 用k-项集探求(k+1)-项集。 具体地:首先找出频繁1-项集,该集合记为L1;用L1找出频繁2-项集的集合L2;如此继续下去,直到找到最大频繁项集 在寻找最大频繁项集过程中,需要反复使用连接和剪枝的操作。 连接 连接的作用是为了从频繁的K项集集合产生候选可能为频繁的K+1项集集合。 为找到Lk ,通过Lk-1与自己连接产生候选k-项集的集合,该候选项集的集合记作Ck li 是Lk-1的项集, li [ j] 表示的第j项 项集中的项按字典次序排序 l1、 l2 是Lk-1的项集,如果l1、 l2的前k-2相同,则l1、 l2是可连接的。而l1 [ k-1] l2 [k-1]保证连接不重复。连接产生的项集为: l1 [1] l1 [2] …l1 [ k-1] l2 [k-1] 剪枝 剪枝的作用是快速除去不可能为频繁项集的候选项,减少运算。 Lk是频繁 k-项集,Ck是由 Lk-1连接产生的候选k-项集, Ck是Lk的超集 进行对Ck的压缩 如果一个候选k-项集的(k-1)-子集不在Lk-1中,则该候选也不可能是频繁的 寻找强规则 两步 对每一个频繁项集u,产生u的所有非空真子集 对u的每一个非空真子集s, 若support_count(u)/ support_count(s)≥ min_conf 则输出:s → (u-s) 例如:频繁项集u={B,C, E}, 产生所有非空真子集6个,对应有6个可能的规则,分别计算每一条规则的置信度 非空真子集为{B},{C},{E},{B C},{B E},{C E},则可形成的规则 B →{C E},C →{B E},E →{B C} {B C} →E,{B E} →C,{C E} →B 检验这些规则的置信度,如果高于设定值,就认为是强规则。 例:购物篮分析 统计9个人购买的商品,见右表,设频率高于等于2次的为频繁项集,最小置信度为70%,求商品关联的强规则? 作业 数据库含有4个事务,设最小支持度为60%,最小置信度为80%, 1:使用Apriori算法求出频繁项集; 2:列出所有强关联规则? 5.2 决策树算法 决策树的表现形式类似于流程图的树结构,在决策树的内节点进行属性测试,分支代表属性测试,叶节点代表测试结果。 决策树是以样本为基础的归纳学习方法。 由决策树转换成分类规则比较容易。 设S为训练集,训练集中有U1、U2两类,训练集含有n个属性(A1、A2…An),Ak处有m个取值(V1、V2…Vm) 计算该集合所包含的全部属性的互信息,选择最大的Ak ,作为节点。 把Ak处取值相同的,归为一个子集。 若子集中同时含有U1、U2类的样本,返回1,递归调用。 若子集仅含有U1或U2,对该分支标上类别,该分支结束运算。 当算法遇到以下两种情况,也应停止
您可能关注的文档
- 设备管理培训教程设备点检制.ppt
- 设备管理培训教程标准化作业.ppt
- 设备管理培训教程点检定修制.ppt
- 设备润滑管理NISSAN.ppt
- 商务PPT模板-美赛达(GPS导航方案解决商嵌入式软件解决商)讲座.ppt
- 上市篇资 本 运 作知识的普及.ppt
- 设计投资控股管理模式下的组织结构和管理体系[教材].ppt
- 社会心理学课件(南开大学精品课程).ppt
- 设备管理与TPM完整版.ppt
- 上杭农村民俗文化的调查与研究.ppt
- 2024年常州辅警(协警)招聘考试备考题库(必刷500题)及参考答案详解.docx
- 2024年西安辅警(协警)招聘考试备考题库(必刷500题)含答案详解.docx
- 贵州国企招聘:2025贵州盐业(集团)黔西南有限责任公司招聘15人(公共基础知识)综合能力测试题附答.docx
- 首创证券2025年社会招聘(公共基础知识)测试题附答案解析.docx
- 四川省教育考试院2025年公开招聘编外聘用人员(公共基础知识)综合能力测试题附答案解析.docx
- 青岛市城阳区教育和体育局选聘2026届国家公费师范毕业生(106名)(公共基础知识)综合能力测试题带.docx
- 宁波市奉化区企事业单位面向2026届高校毕业生招聘高层次人才70人(公共基础知识)测试题带答案解析.docx
- 2024年淮南辅警(协警)招聘考试真题(必刷500题)及参考答案详解一套.docx
- 2024年岳阳辅警(协警)招聘考试真题(必刷500题)及参考答案详解一套.docx
- 2024年崇明县辅警招聘考试真题(必刷500题)及参考答案详解.docx
最近下载
- 第08讲 绝对值三角不等式(5种题型)(原卷版)_1.docx VIP
- 山东师范大学影视文学研究期末考试复习题.docx
- 成品油管道工程项目社会稳定风险评估报告(中国市场经济研究院-工程咨询-甲级资质).pdf VIP
- 大九九乘法表(完美)-乘法表全图.docx VIP
- JGJ-T304-2013:住宅室内装饰装修工程质量验收规范.pdf VIP
- JJG 1124-2016 门座(桥架)起重机动态电子秤检定规程.docx VIP
- 古文观止注音详解卷四秦文修订稿.pdf VIP
- 九年级物理18章电功率集体备课教案.docx VIP
- 过程装备控制技术及应用-全套课件(PDF版).pdf VIP
- 2024马克思主义发展史第2版配套题库里面包含考研真题课后习题和章节题库总共170页.pdf VIP
原创力文档


文档评论(0)