- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
LOGO第4部分其它高级主题第13章数据挖掘高级数据库系统及其应用**第13章数据挖掘数据挖掘综述13.1数据关联模式13.2决策树13.3聚类13.4基于序列的相似搜索13.5**13.1数据挖掘(DataMining,DM)综述DM定义是一种需要很少用户定义参数、高度抽象复杂且无法用常规SQL表达的查询。主要目标从大数据集中发现有趣的趋势或模式,以指导未来的决策行为,或引导后续更细致的数据分析研究。应用特点必须面向非常大数据集处理,针对数据集大小是否具有线性可伸缩性(scalability),是判断一个DM方法是否有效的重要标准。**DM与知识发现过程(KDD)的关系在实际应用中,DM并不只是应用一两个算法的简单问题,而是通常比这复杂得多,且或多或少会涉及KDD的其它过程步。**本章将介绍的DM知识体系及特点DM现已发展成为数据处理技术的一个重要分支学科,包含丰富的相关知识,有自己独立的体系。而在本章中只限于介绍一些重要的、已在主流RDBMS产品之数据分析扩展套件中实现的DM功能,并侧重考虑如何充分利用DB查询处理技术,来优化某些传统DM算法的性能和可伸缩性。这显然与其它数据挖掘专著所基于的视角有所不同。**13.2数据关联模式13.2.1频繁项集13.2.2冰川查询13.2.3挖掘关联规则挖掘数据关联模式对给定的数据集,通过搜索不同数据项(items)之间的关联性,来寻找频繁且有趣的数据模式。典型应用市场购物篮分析通过分析顾客购买物品的交易数据记录集(每条记录描述一个顾客的一次购买交易物品项目集),来发现一些顾客经常同时购买的物品类。这个信息可用于改善商店中物品摆放布局,或改进商店的物品目录板。**13.2.1频繁项集用于购物篮分析的一个购买实例,图13.1(Purchases)将记录按交易事务(由transid标识)排序分组,同组各元组合在一起,构成了一个购买交易。该表中有冗余。然而,这种有冗余的临时关系,更便于演示寻找频繁项集的算法思想。观察记录数据不难发现“75%的事务同时购买了pen和ink”**计算频繁项集的经典算法-Priori算法(1)算法涉及的几个重要概念项集(itemset)代表一组物品或一组项目项集支持度(support)包含该项集的事务占DB中所有事务的比例。在我们的例子中,项集{pen,ink}的支持度为75%频繁项集(frequentitemset)指支持度超过用户指定阈值(minsup)的项集Priori性质每个频繁项集的任何子集必须也是频繁项集算法13.1寻找频繁项集的Priori算法**计算频繁项集的经典算法-Priori算法(2)算法涉及的几个重要概念算法13.1寻找频繁项集的Priori算法该算法可以进一步应用Priori性质来求精以“频繁项集的所有子集也是频繁项集”为检查标准,可进一步减少候选集数目。从而有助于减少了扫描Purchases关系期间需执行的计算量。**13.2.2冰川查询(1)仍考虑图13.1的Purchases关系实例。假设我们要查找:满足“顾客购买item最少5次”条件的所有customer,item对,这个请求可用SQL语句表达如下:SELECTP.custid,P.item,SUM(P.qyt)FROMPurchasesPGROUPBYP.custid,P.itemHAVINGSUM(P.qty)5概念赋值策略:对每个customer,item对,需要检查SUM(P.qyt)是否大于5。如果主存可容纳所有这样对的值,则扫描一次Purchases关系即可。否则,需使用额外的排序和散列,查询赋值计划的代价会很大。这个概念赋值策略没有充分利用查询的一个重要特性:HAVING条件限制。虽然分组数可能非常大,但满足HAVING条件的分组数缺往往不多――就象冰川的顶尖通常总是很小一样。**13.2.2冰川查询(2)冰川查询的一般形式SELECTR.A1,R.A2,…,R.Ak,aggr(R.B)FROMRelationRGROUPBYR.A1,R.A2,…,R.AkHAVINGaggr(R.B)constant比较冰川查询与找频繁项集问题,有一个惊人的相似性。要求customer,item组满
文档评论(0)