- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术2009Chp4.ppt
流行的OLAP工具介绍(续) IBM DB2 OLAP Server 把Hyperion Essbase的OLAP引擎和DB2的关系数据库集成在一起。 与Essbase API完全兼容 数据用星型模型存放在关系数据库DB2中 Informix Metacube 采用metacube技术,通过OLE和ODBC对外开放, 采用中间表技术实现多维分析引擎,提高响应时间和分析能力 开放的体系结构可以方便地与其他数据库及前台工具进行集成 Sybase Power dimension 数据垂直分割(按“列”存储) 采用了突破性的数据存取方法bit-wise索引技术 在数据压缩和并行处理方面有多到之处 提供有效的预连接(Pro-Jion)技术 第3节 Rough的信息分析技术 粗糙集理论的基本概念和理论基础 Rough集理论 是一种研究能有效地分析和处理不精确、 不确定知识的数学工具,也是一种基于集 合论的,并利用3值逻辑处理不精确、不完 全信息的形式化数据分析方法。 无需提供问题所需处理的数据集合之外的 任何先验信息。它相对于许多其他处理不 确定知识的方法来说,更具有客观性。 Rough集基本思想 利用定义数据集合U上的等价关系对U进行 划分。对数据表来说,这种等价关系可以 是某个属性,或者几个属性的集合。按照 不同属性的组合就把数据表划分成不同的 基本类,在这些基本类的基础上进一步求 得最小约简集。 对大量数据进行约简处理,得到和原始数据等效的属性约简集 粗糙集在信息分析中的特征表示 定义4 设U≠?是论域,Ω={ω1, ω2,…,ωm}是对象集, Ω ?U,Ω中任何对象所具有的特征所组成的集合,称为特征集(property set):T={t1,t2…,tn}。这些特征可由如下的“属性-值”表示:t=(a,v), a?At,v ?Val。由特征集构成的表,称之为特征表。 从辩证的角度来讲,知识的精确、确定表示是相对的,而知识表示的粗糙性、不确定性则是“绝对”的。如何改进方法,提高知识表示的准确性呢?可从以下两方面着手:1)增大特征集,扩大原子概念的规模,使知识表达的最小“颗粒”更加细化,从理论上讲,随着知识表达“颗粒”的无限细化,则知识表示将趋向“完全清晰、准确”。2)在原子概念规模不变的前提下,改变原子的内涵,即从一个新的视角来观察事物,提取特征,这往往有利于认清事物的本质,改善知识表示的精确性、准确性。 Rought集理论提供了这样一个工具,可以在保证 关于学习任务的信息的同时,找到描述它们最小 属性集。 本章主要内容 1. 信息分析技术的基本技术有哪些? 2. 什么是智能代理,有何应用? 3. OLAP及其应用是怎样的? 4. Rough的信息分析技术的特点是什么? 数据挖掘技术Chp.4 第4章 信息分析的基本技术 Dept. of E-Commerce, School of Information, Xi’an University of Finance and Economics, Xian, China 第2节 联机分析 联机分析OLAP的基本术语 维 维成员 维的一个取值称为该维的一个维成员。 如果一个维是多层次的,那么该维的维成员是由各个不同维层次的取值组合而成。例如: 时间维具有日期、月份、年这三个层次,分别在日期、月份、年上各取一个值组合起来,就得到了时间维的一个维成员:“某年某月某日”。某地理维由国家、省、地区3个层次构成,则“中国福建省厦门地区”是维的一个取值。有时候,维度取值不一定包含所有的层次,比如“中国福建省”,它实际上也是惟一的一个取值,并不包括其下的各个地区。 一个维成员并不一定在每个维层次上都要取值,例如“某年某月”、“某月某日”、“某年”等等都是时间维的维成员。 对应一个数据项来说,维成员是该数据项在某维中位置的描述。例如,对一个销售数据来说, “某年某月某日”是该销售数据在时间维上位置的描述。 第2节 联机分析 联机分析OLAP的基本术语 维 多维数组。 一个多维数组可以表示为:(维l,维2,…,维n,变量),例如: 若日用品销售数据是按时间、地区和销售渠道组织起来的三维立方体,加上变量销售额,就组成了一个多维数组(地区、时间,销售渠道,销售额), 如果再扩展一个产品维,就得到一个四维的结构,其多维数组为(产品,地区,时间,销售渠道,销售额)。 数据单元(单元格) 多维数组的取值称为数据单元。 当多维数组的各个维都选中一个维成员,这些维成员的组合就唯一确定了一个变量的值。那么数据单元就可以表示为(维1维成员,维2维成员,……维n维成员,变量的值)。 例如,在产品、地区、时间和销售渠道上各取维成员“牙膏”、“上海”、“1998年12月”和“批发”,就唯一确定了变量“销售额
文档评论(0)