- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用大数据刘鹏主编张燕张重生张志立副主编BIGDATA
刘鹏教授,清华大学博士。现任南京大数据研究院院长、中国信息协会大数据分会副会长、中国大数据技术与应用联盟副理事长。主持完成科研项目25项,发表论文80余篇,出版专业书籍15本。获部级科技进步二等奖4项、三等奖4项。主编的《云计算》被全国高校普遍采用,被引用量排名中国计算机图书第一名。创办了知名的中国云计算()和中国大数据()网站。曾率队夺得2002PennySort国际计算机排序比赛冠军,两次夺得全国高校科技比赛最高奖,并三次夺得清华大学科技比赛最高奖。荣获“全军十大学习成才标兵”(排名第一)、南京“十大杰出青年”、江苏省中青年科学技术带头人、清华大学“学术新秀”等称号。
3.1数据挖掘概述全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用第三章数据挖掘算法3.2分类3.3聚类3.1数据挖掘概述3.5预测规模习题3.6数据挖掘算法综合应用3.4关联规则of653
3.4关联规则关联规则是数据挖掘中最活跃的研究方法之一,是指搜索业务系统中的所有细节或事务,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则,以获得存在于数据库中的不为人知的或不能确定的信息,它侧重于确定数据中不同领域之间的联系,也是在无指导学习系统中挖掘本地模式的最普通形式。More应用市场:市场货篮分析、交叉销售(CrossingSale)、部分分类(PartialClassification)、金融服务(FinancialService),以及通信、互联网、电子商务······第三章数据挖掘算法of654
3.4关联规则第三章数据挖掘算法一般来说,关联规则挖掘是指从一个大型的数据集(Dataset)发现有趣的关联(Association)或相关关系(Correlation),即从数据集中识别出频繁出现的属性值集(SetsofAttributeValues),也称为频繁项集(FrequentItemsets,频繁集),然后利用这些频繁项集创建描述关联关系的规则的过程。3.4.1关联规则的概念关联规则挖掘问题:发现所有的频繁项集是形成关联规则的基础。通过用户给定的最小支持度,寻找所有支持度大于或等于Minsupport的频繁项集。通过用户给定的最小可信度,在每个最大频繁项集中,寻找可信度不小于Minconfidence的关联规则。发现频繁项集生成关联规则如何迅速高效地发现所有频繁项集,是关联规则挖掘的核心问题,也是衡量关联规则挖掘算法效率的重要标准。of655
3.4关联规则第三章数据挖掘算法3.4.2频繁项集的产生及其经典算法格结构(LatticeStructure)常常被用来枚举所有可能的项集。图3-10项集的格of656
3.4关联规则第三章数据挖掘算法3.4.2频繁项集的产生及其经典算法格结构(LatticeStructure)常常被用来枚举所有可能的项集。查找频繁项目集经典的查找策略基于精简集的查找策略基于最大频繁项集的查找策略按照挖掘的策略不同经典的挖掘完全频繁项集方法基于广度优先搜索策略的关联规则算法基于深度优先搜索策略的算法Apriori算法、DHP算法FP-Growth算法、ECLAT算法COFI算法与经典查找不同方法基于精简集的方法基于最大频繁项目集的方法A-close算法MAFIA算法、GenMax算法DepthProject算法of657
3.4关联规则第三章数据挖掘算法3.4.2频繁项集的产生及其经典算法1.Apriori算法Apriori算法基于频繁项集性质的先验知识,使用由下至上逐层搜索的迭代方法,即从频繁1项集开始,采用频繁k项集搜索频繁k+1项集,直到不能找到包含更多项的频繁项集为止。Apriori算法由以下步骤组成,其中的核心步骤是连接步和剪枝步:生成频繁1项集L1连接步剪枝步生成频繁k项集Lk重复步骤(2)~(4),直到不能产生新的频繁项集的集合为止,算法中止。性能瓶颈Apriori算法是一个多趟搜索算法可能产生庞大的候选项集of658
3.4关联规则第三章数据挖掘算法3.4.2频繁项集的产生及其经典算法2.FP-Growth算法频繁模式树增长算法(FrequentPatternTreeGrowth)采用分而治之的基本思想,将数据库中的频繁项集压缩到一棵频繁模式树中,同时保持项集之间的关联关系。然后将这棵压缩后的频繁模式树分成一些条件子树,每个条件子树对应一个频繁项,从而获得频繁项集,最后进行关联规则挖掘。FP-Growth算法由以
您可能关注的文档
- 名校联盟山东省高密市银鹰文昌中学七级生物课件绿色植物蒸腾作用.pptx
- 2024年形势与政策第三讲-走好新时代科技自立自强之路.pdf
- 第五章-发展全过程人民民主-保障人民当家作主-2023春形势与政策.pptx
- 2024春形势与政策-走好新时代科技自立自强之路课件.pdf
- 第五章-发展全过程人民民主-保障人民当家作主-2023春形势与政策.pdf
- AI智能+智慧工厂厂区整体解决方案.pptx
- 2024春形势与政策-全面认识全过程人民民主.pdf
- 2024春形势与政策走好新时代科技自立自强之路课件.pdf
- 走好新时代科技自立自强之路-2024春季形势与政策讲稿第三讲讲义.pdf
- 2025年春季学期 形势与政策讲稿第五讲-从教育大国迈向教育强国.pdf
- DeepSeek培训课件入门宝典:第2册 开发实战篇 .pptx
- 全面认识全过程人民民主-2024春形势与政策课件.pptx
- 2024春形势与政策-全面认识全过程人民民主.pptx
- 2025年春季学期形势与政策第二讲-中国经济行稳致远讲稿.docx
- 2024春形势与政策-铸牢中华民族共同体意识课件.pdf
- 2024春形势与政策-走好新时代科技自立自强之路课件 (2).pptx
- 2024春形势与政策-走好新时代科技自立自强之路课件.pptx
- 形势与政策学习指导教学-整套课件.pdf
- 2023年春季形势与政策讲稿第三讲-开创高质量发展新局面.pdf
- DeepSeek培训课件-清华大学-DeepSeek模型本地部署与应用构建.pptx
最近下载
- 2022年南昌交通学院计算机科学与技术专业《数据结构与算法》科目期末试卷A(有答案).docx VIP
- 卡乐控制器PCO控制器说明.docx VIP
- 光伏玻璃研制及其工艺浅析.pdf VIP
- 企业质量环境职业健康安全管理体系内部审核报告QES.pdf VIP
- 2024年高考物理真题汇编(19套).docx
- 2024年濮阳职业技术学院单招职业技能测试题库及答案一套.docx VIP
- [江苏]2025年专利协作江苏中心招聘专利员130人笔试历年参考题库(频考点试卷)解题思路附带答案详.docx VIP
- 正泰变频器NVF2G变频器说明书使用手册.pdf
- 地下车位转让合同_地下车位转让合同格式.docx VIP
- 2023年南昌交通学院计算机科学与技术专业《数据结构与算法》科目期末试卷A(有答案).docx VIP
文档评论(0)