- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章 数据仓库与数据挖掘 数据库新技术知识 .ppt
关联规则挖掘 关联规则用于表示OLTP数据库中诸多属性(项集)之间的关联程度。而关联规则挖掘( Association Rules Mining)则是利用数据库中的大量数据通过关联算法寻找属性间的相关性。 例:(超级市场)在购买商品A的客户中有90%的人会同时购买商品B,则可用关联规则表示为: A → B …………… …….…… 规则1 我们讲数据挖掘的结果要满足一定的置信度和兴趣度要求,在这里,用户对规则感兴趣的程度我们用规则的支持度来表示。 关联规则挖掘 规则1: A → B 支持度(Support) 同时购买A和B的客户人数占总客户数的百分比称为规则1的支持度。 Support(A → B) = Probability(A?B) 置信度(Confidence) 同时购买A和B的客户人数占购买A的客户人数的百分比称为规则1的置信度。 Confidence(A → B) = Probability(B/A) = Probability(A ? B) / Probability(A) 关联规则挖掘 购买A的顾客 购买B的顾客 同时购买A和B的顾客 关联规则挖掘 如果不考虑关联规则的支持度和置信度,那么在事务数据库中存在无穷多的关联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。 为了发现出有意义的关联规则,需要给定两个阈值:最小支持度和最小置信度。关联规则挖掘的实质是在OLTP数据库中寻找满足用户给定的最小支持度和最小置信度的规则。 关联规则挖掘算法:The Apriori Algorithm 关联规则挖掘 Apriori算法的原理: 项集(itemset):在数据库中出现的属性值的集合。 频繁项集(frequent itemset):满足最小支持度要求的项集。 关联规则一定是在满足用户的最小支持度要求的频繁项集中产生的,因此,关联规则挖掘也就是在数据库中寻找频繁项集的过程。 在寻找频繁项集的过程中,我们遵循一条规则: 每个频繁项集的任一子集必定也是一个频繁项集。 关联规则挖掘 假设最小支持度和最小置信度的要求均为40% Transaction ID Items 2000 A, B, C 1000 A, C 4000 A, D 3000 B, E, F OLTP数据库 Itmeset Support A 70% B 50% C 30% D 40% E 30% F 30% Itmeset Support A, B 20% A, C 30% B, C 25% 最后找到的频繁项集是:(A), (B), (C), (A, C) 关联规则挖掘 因此,在上述数据库中,我们能找到的关联规则只能是频繁项集(A,C)上的。 规则1:A → C(支持度50%,置信度66.6%) 规则2:C → A (支持度50%,置信度100%) 序列模式分析 序列模式分析与关联规则挖掘类似,也是为了找出数据对象之间的联系,但序列模式分析法的侧重点是为了找出数据对象之间的前因后果关系。 例如: 下雨 洪涝 电筒 电池 分类分析 首先为每一个数据(记录)打上一个标记,即按标记对数据(记录)进行分类,而分类分析则是对每类数据找出其固有的特征与规律。 例:信用卡公司对持卡人的信誉度标记按:优、良、一般及差四档分类。这样,持卡人就分成为四种类型,然后利用分类分析找出每一类持卡人的特征与规律。如可以对信誉度为优的持卡人寻出其固有规律如下: 信誉度为优的持卡人一般为年收入在10万元以上,年龄在45-55岁之间并居住在莲花小区与翠微山庄的人 例:电话计费系统可以根据不同时间段电话的使用频率来调整计费单价。 分类分析 记录的分类标准可以是用户给定的,也可以从领域知识中获取。 分类分析法是一种特征归纳的方法,它将每类数据所共有的特性抽取以获得规律性的规则,目前有很多分析类型,它们大都基于: 线性回归分析 人工神经网络 决策树 规则模型 聚类分析 聚类分析与分类分析相反,首先输入的是一组没有被标记的记录,系统按照一定的规则合理地划分记录集合(相当于给记录打标记,只不过分类标准不是用户指定的),然后可以采用分类分析法进行数据分析,并根据分析的结果重新对原来的记录集合(没有被标记的记录集合)进行划分,进而再一次进行分类分析,如此循环往复,直到获得满意的分析结果为止。 例如 信用卡的等级划分 学生的分类 数据挖掘的步骤 数据挖掘一般可由下面5个步骤组成,它们是: 数据集成 数据归约 挖掘 评价 表示 数据挖掘的步骤 (1)数据集成 数据挖掘的基础是数据,因此在挖掘前必须进行数据集成,这包括: 首先从各类数据系统中提取挖掘所需的统一数据模型,建立一致的数据视图。 其次是作数据加载,从而形成挖掘的数据基础 目前,一般
您可能关注的文档
- 第15章 网络通讯 《Java程序的设计之网络编程》 .ppt
- 第15章 腹膜炎及腹部损伤病人的护理知识 外科护理知识课件.ppt
- 第15章 蜜罐主机和蜜罐网络 网络攻防原理和 与实践课件.ppt
- 第15章 触发器与时序逻辑电路 《电工电子技术知识》(电子课件).ppt
- 第15章 货币供需和 与均衡 《金融学》授课教案.ppt
- 第15章 货币政策 宏观经济学原理和 与实务课件.ppt
- 第15章 货币资金审计 审计原理和 与实务三版 .ppt
- 第15章 静脉输液与输血 护理知识学基础课件.ppt
- 第15章-成品的保藏-修改 保藏学课件第三部分--各类食品保藏基本方法.ppt
- 第15章_Struts 2对AJAX的支持 试验的设计与数据处理教案(第二版)课件.ppt
- 第5章 数据库管理 数据库技术知识基础课件.ppt
- 第5章 数据库设计 数据库技术知识与应用教程-课件.ppt
- 第5章 数组与字符串 Java程序的设计语言.ppt
- 第5章 文件传输和 与远程登录 《Internet应用和 与HTML》课件.ppt
- 第5章 文字与表格 AutoCAD 2010 建筑的设计课件.ppt
- 第5章 文本编辑 CorelDRAW图形的设计案例教程课件.ppt
- 第5章 方差分析 《相关管理统计学》课件.ppt
- 第5章 无线传感器网络简介 《物联网技术知识与应用(第2版)》课件.ppt
- 第5章 时间序列平滑模型 管理预测技术知识与方法课件.ppt
- 第5章 柔性版印刷 印刷设备和 与工艺课件.ppt
最近下载
- 妈妈我要亲亲你.pptx VIP
- 八年级地理上册中国气候(第三课时)课件湘教版.ppt VIP
- 第十三讲先锋队与中华民族独立解放+第十四讲新中国与中华民族的新纪元(1949—2012)-中华民族共同体概论专家大讲堂课件+第十五讲新时代与中华民族共同体建设.pptx VIP
- 第八讲共奉中国与中华民族内聚发展(辽宋夏金时期)-中华民族共同体概论专家大讲堂课件+第九讲混一南北与中华民族大统合(元朝时期)-中华民族共同体概论专家大讲堂课件.pptx VIP
- 最新最新版糖尿病防治指南课件.pptx VIP
- 中华民族共同体概论课件专家版2第二讲 树立正确的中华民族历史观.pptx VIP
- 城市更新项目可行性研究报告.docx
- 湘教版八年级上册地理中国的气候(第1课时).ppt VIP
- 铭记历史,砥砺前行——抗战胜利80周年主题班会(课件)-2025-2026学年高中主题班会优质课件.pptx VIP
- 妈妈我要亲亲你1.ppt VIP
文档评论(0)