- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式识别和数据挖掘 知识发现 关联规则 数据仓库 知识发现工具 知识发现 数据库知识发现 不同的术语名称 知识发现的任务(1) 知识发现的任务(2) 知识发现的方法(1) 知识发现的方法(2) 知识发现的方法(3) KDD的技术难点 关联规则 关联规则的表示 关联规则的相关概念(1) 关联规则的相关概念(2) 关联规则的相关概念(3) 关联规则的相关概念(4) 关联规则发现任务 关联规则发现的基本思路 思路的正确性 经典的Apriori算法 关联规则发现注意的问题 关联规则发现使用步骤 关联规则在保险业务中的应用 数据仓库 数据仓库的定义 数据仓库的特征(1) 数据仓库的特征(2) 元数据 元数据的重要性 数据仓库的相关概念 数据仓库的建模模型 OLAP OLAP的类型 OLAP的分析操作 数据仓库和知识发现技术的结合(1) 数据仓库和知识发现技术的结合(2) 连接数据,做数据准备 给定最小支持度和最小可信度,利用知识发现工具提供的算法发现关联规则 可视化显示、理解、评估关联规则 最小支持度1%,最小可信度为50% 在过去几十年,数据库技术,特别是OLTP(联机事务处理),主要是为自动化生产、精简工作任务和高速采集数据服务。它是事务驱动的、面向应用的。 20世纪80年代,人们要利用现有的数据,进行分析和推理,从而为决策提供依据。这种需求既要求联机服务,又涉及大量用于决策的数据。而传统的数据库系统已无法满足这种需求: 所需历史数据量很大,而传统数据库一般只存储短期数据。 涉及许多部门的数据,而不同系统的数据难以集成。 对大量数据的访问性能明显下降 信息处理技术的发展趋势是:从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格。随着此过程的发展和完善,这种九十年代初出现的支持决策的、特殊的数据存储即被称为数据仓库(Data Warehouse)。 Inmon将数据仓库明确定义为: 数据仓库(Data Warehouse)是面向主题的,集成的,内容相对稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。 数据仓库中的数据是面向主题的 与传统数据库面向应用相对应的。主题是一个在较高层次将数据归类的标准,每一个主题基本对应一个宏观的分析领域 数据仓库中的数据是集成的 在数据进入数据仓库之前,必然要经过加工与集成。要统一原始数据中的所有矛盾之处,还要进行数据综合和计算 数据仓库中的数据是稳定的 数据仓库的数据主要供决策分析之用,所涉及的操作主要是数据查询,一般不进行修改操作 数据仓库中的数据又是随时间不断变化的 数据仓库的数据不是实时更新的,但并不是永远不变的,也要随着时间的变化不断地更新、增删和重新综合。 更新周期 元数据(Meta-data)是关于数据的数据,它描述了数据的结构、内容、编码、索引等内容。传统数据库中的数据字典是一种元数据,但在数据仓库中,元数据的内容比数据库中的数据字典更加丰富和复杂。设计一个描述能力强、内容完善的元数据,是有效管理数据仓库的具有决定意义的重要前提 数据仓库使用者往往将使用元数据作为分析的第一步。元数据如同数据指示图,指出了数据仓库内各种信息的位置和含义 从操作型数据环境到数据仓库的数据转换是复杂的、多方面的,是数据仓库建设的关键性步骤,元数据要包含对这种转换的清晰描述,保证这种转换是正确、适当和合理的,并且是灵活可变的 元数据还管理粒度的划分、索引的建立以及抽取更新的周期等,以便管理好数据仓库中的大规模数据 事实表(Fact):存储用户需要查询分析的数据,事实表中一般包含多个维(Dimension)和度量(Measurement)。 维:代表了用户观察数据的特定视角,如:时间维、地区维、产品维等。每一个维可划分为不同的层次来取值,如时间维的值可按年份、季度、月份来划分,描述了不同的查询层次。 度量:是数据的实际意义,描述数据“是什么”,即一个数值的测量指标,如:人数、单价、销售量等。 度量的实际数据存放在事实表中。维的详细信息,如不同的层次划分和相应数据等在维表中存储,事实表中存放各个维的标识码键。事实表和维表将通过这些键关联起来,构成一种星型模型 对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为雪花模型 数据仓库技术中,多维数据分析(Multidimensional Data Analysis)方法是一种重要的技术,也称作联机分析处理(On-Line Analytical Processing,简称OLAP)或数据立方体(Data Cube)方法,主要是指通过各种即席复杂查询,对数据仓库中存储的数据进行各种统计分析的
您可能关注的文档
- 经典迈克尔贝叶著管理经济学与商务战略课件英文版Chap012.ppt
- 经公司法第4、5、6、7节.ppt
- 经公司法第三节股份公司.ppt
- 经合同法1、2节.ppt
- 经济法第九章合同法律制度总则.ppt
- 经济发展与地理重构.ppt
- 名师指津2011高中英语U1womenofachievement课件新人教版必修4.ppt
- 名流尊享夜策划方案.ppt
- 名著《朝花夕拾》.ppt
- 铭源凯德过滤设备北京有限公司全自动过滤器调研1.ppt
- 英语人教PEP版八年级(上册)Unit4+writing+写作.pptx
- 人美版美术四年级(上册)8 笔的世界 课件 (1).pptx
- 人美版美术七年级(上册)龙的制作.pptx
- 英语人教PEP版六年级(上册)Unit 2 第一课时.pptx
- 数学苏教版三年级(上册)3.3 长方形和正方形周长的计算 苏教版(共12张PPT).pptx
- 音乐人教版八年级(上册)青春舞曲 课件2.pptx
- 音乐人教版四年级(上册) 第一单元 音乐知识 附点四分音符|人教版.pptx
- 英语人教PEP版四年级(上册)Unit 6 Part B let's learn 1.pptx
- 道德与法治人教版二年级(上册)课件-3.11大家排好队部编版(共18张PPT).pptx
- 人美版美术七年级(上册)《黄山天下奇》课件1.pptx
最近下载
- 耳鼻喉科术后感染预防PDCA循环案例.pptx VIP
- 干部管理-华为学习材料.pdf VIP
- 华为干部管理七步曲.pdf VIP
- 外研版小学五年级英语上册《Module 5 Unit 1 There are only nineteen crayons 》教学教案.doc VIP
- 2018年春二年级下册道法教案.pdf VIP
- 高中体育新课标程准考试试题.doc VIP
- 甲亢甲减的相关知识与护理PPT课件.pptx VIP
- 新人教pep三年级上册Unit2 Different families PartA talk &learn 课件.ppt
- 九年级化学培优辅差工作总结 .pdf VIP
- 第4课《古代诗歌四首》核心素养教学设计-七年级语文上册(统编版).docx
文档评论(0)