- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 数据仓库与数据挖掘
数据仓库产品:Oracle8i Release 3 OLAP分析产品:Oracle Express 数据挖掘产品:Oracle Darwin Oracle Darwin是基于数据仓库的数据挖掘工具,支持多种算法,包括神经网络、线性回归、逻辑回归、决策树、匹配模型、聚类和探测数据分析。 Oracle相关系列产品 3.数据仓库产品及解决方案举例 SPSS拥有比较完整的数据分析产品。主要产品包括基础统计软件SPSS BASE,基于决策树的数据挖掘软件Answer Tree,基于神经网络的数据挖掘软件Neural Connection,以及通用数据挖掘软件Clementine等。 SPSS产品 3.数据仓库产品及解决方案举例 Clementine 预示和分类:神经网络、决策树、线性回归、逻辑回归、因子分析和主成分分析。 聚类和分段:Kononen网络、Kmeans、Two Step。 联合检查:GRI、演绎、Web可视化、Sequence SPSS产品 3.数据仓库产品及解决方案举例 关联分析是从数据库中发现知识的一类重要方法,若两个或多个数据项的取值重复出现的概率很高,可以建立起这些数据项的关联知识,为决策服务。常用的两种技术是关联规则和时序模式。 关联分析 4.DM的决策支持 关联规则:即为A→B 就是一个条件和一个结果的和 if condition then result 关联分析 4.DM的决策支持 关联分析 4.DM的决策支持 “尿布与啤酒”的故事 ——美国沃尔玛连锁超市 买尿布的顾客有30%~40%的人还会买啤酒,这是一条关联规则。 买面包的顾客有90%的人还会买牛奶,这也是一条关联规则。 如某零售商某类交易总数1000笔,其中: 关联分析 4.DM的决策支持 交易 交易数 A 包含“锤子” 500 B 包含“钉子 ” 800 C 包含“钳子 ” 200 AB 包含“锤子、钉子” 150 BC 包含“钉子、钳子” 100 AC 包含“锤子、钳子” 100 设规则“购买了商品X的顾客同时也买商品Y”,进行关联分析时需要输入两个参数: 支持度(S):某一特定关联在DB中出现的频率 ,即 置信度(C):以过滤掉可能性过小的规则。即 这里设最小支持度和置信度分别为15%和30%。 关联分析 如某零售商某类交易总数1000笔,其中: 关联分析 4.DM的决策支持 交易 交易数 支持度 置信度 A 包含“锤子” 500 B 包含“钉子 ” 800 C 包含“钳子 ” 200 AB 包含“锤子、钉子” 150 15% 30% BC 包含“钉子、钳子” 100 10% 12.5% AC 包含“锤子、钳子” 100 10% 20% 时序模式是通过时间序列搜索出重复发生概率较高的模式。这强调是时间序列的影响。如在所有买了激光打印机的人中,半年后有80%的人再购买新的硒鼓,20%的人用旧硒鼓装碳粉;在所有买了电视的人中,一个月内有60%的人再买DVD。 关联分析 4.DM的决策支持 数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念,有效地帮助人们认识客观事物,鉴别事物。聚类的方法有划分法、层次法和遗传算法等。 聚类 4.DM的决策支持 分类法也可称分类分析法,是寻找分类数据中的每类数据的规律,我们知道世界上的事物可按其不同表象而分为不同的类,而这些类间具有其内在的本质差异,如何由不同表象而进一步挖掘出其内在性质的不同,这就是分类方法的主要工作。分类法中的算法很多,有决策树方法、粗集算法、贝叶斯算法、人工神经网络及遗传算法等多种算法。决策树算法、人工神经网络、贝叶斯算法、遗传算法及粗集算法是目前分类法中最常用的算法。 分类 4.DM的决策支持 预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等,是一种很重要的决策支持手段。典型的方法是回归分析 ,近年来发展起来的神经网络方法,如BP模型,实现了非线性样本的学习,能进行非线性函数的判别。分类也能进行预测,但分类一般用于离散数值。回归预测用于连续数值。神经网络方法预测既可用于连续数值,也可用于离散数值。 预测 4.DM的决策支持 决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样本中信息量最大的属性。树的中间结点是该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。 决策树概念 5.决策树及其应用
文档评论(0)