第13章复杂数据的商务智能分析方法..pptVIP

下载本文档

6
0
约1.43万字
约 52页
2019-01-13 发布于湖北
举报
版权申诉

第13章复杂数据的商务智能分析方法..ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PageRank计算（2）权威度的定义是递归的，因此可以进行迭代计算：初始情况下,每个结点的权威度为1/n,即R0(j)=1/n。相应地，设R代表权威度列矢量，可以利用矩阵运算如下： ?Ri = M ? Ri-1 示例图G 图G的转移矩阵M A B C D 13.3 数据流数据挖掘实际应用中，有些数据是实时、动态产生的，每个数据项到达的顺序未知，长度可能是无限的。例如，提交给搜索引擎的查询、股票交易、电信记录、自动取款机交易记录、零售商品交易记录也属于数据流。由于速度快，数量大，现有存储设备通常无法保存数据流的所有历史信息，如果要实时发现隐藏在数据流中的某些知识，需要设计高效的挖掘算法，以便对数据流读取一次或几次就发现所需要的知识。传统数据挖掘技术很难直接应用于数据流挖掘。引入几个符号定义设S表示输入数据流：S=e1, e2, e3… eN。称S为长度为N的数据流。设I表示数据流中不同数据项的集合，I={a1, a2, a3… an}，即ei?I。设Fi表示集合I中项ai在S中的真实出现频率，fi表示采用一定方法记录的ai的近似频率。从数据流S中挖掘频繁项的任务为，设S的当前长度为N，给定相对频率阈值φ∈(0,1)，要求输出S中所有出现频率不小于φN的数据项。流数据挖掘的近似模型给定相对频率阈值φ∈(0,1)和错误率ε∈(0,φ)，在数据流S停止之前的任意时刻，输出的数据项满足如下两个条件： (1) 所有输出数据项都要满足Fi≤fi≤Fi+εN； (2) 所有输出数据项都要满足Fi≥(φ-ε)N，并且所有Fi≥φN的数据项都被输出。满足这两个条件的数据项称为ε缺陷频繁项。上述条件中，条件(1)保证了输出数据项的估计频率不会偏离真实频率太多，而条件(2)保证了输出数据项在允许的错误范围内都是频繁的，并且真正频繁的数据项不会被漏掉。 Space Saving算法(1) 由Agrawal和Abbadi提出；给定错误率ε∈(0,φ)，该算法设置m个计数器，且m=1/ε，每个计数器的内容为(e, f, d)，其中e是数据项，f为e的近似频率，d为近似频率f与真实频率F之间的最大差值，即误差。 Space Saving算法(2) 对于数据流S中出现的每个元素e按照如下过程记录每个数据项的出现频率。如果当前计数器中存在e的计数器，将计数器的f值增1；如果当前计数器中不存在e的计数器，但是当前的计数器个数小于m，则新增计数器，令其取值为(e，1，0)；如果当前计数器中不存在e的计数器，且当前的计数器个数等于m，则找到f值最小的计数器，设该计数器记录的信息为(em, fm, dm)将其改为记录当前数据项e，令计数器其取值为(e, fm+1, fm)，其中fm和dm是这个计数器原来记录的数据项的相应的近似频率和误差。当用户发出查询满足φ的频繁的数据项时，输出计数器记录的满足f φN的所有数据项。示例（1）假设当前数据流S为S=ABACBADBCB，共有3个计数器，其监控各个元素出现频率的过程如下。前6个元素出现之后，计数器的内容如下表所示。元素 A B C 近似频率f 3 2 1 误差d 0 0 0 表13.6 数据流计数器示例（2）第7个元素D出现之后，选择当前监控元素C的计数器监控D，修改其3部分内容的取值，近似频率增1，此时计数器的内容如表13.7所示。第8个元素B出现之后，B正被监控，只需将其近似频率增1。元素 A B D 近似频率f 3 2 2 误差d 0 0 1 表13.7 数据流计数器元素 A B D 近似频率f 3 3 2 误差d 0 0 1 表13.8 数据流计数器示例（3）第9个元素C出现之后，从已有的计数器中找出一个来监控它，选择当前监控元素D的计数器，修改其3部分内容的取值后如下表所示。第8个元素B出现之后，B正被监控，只需将其近似频率增1。元素 A B C 近似频率f 3 3 3 误差d 0 0 2 表13.9 数据流计数器元素 B A C 近似频率f 4 3 3 误差d 0 0 2 表13.10 数据流计数器 13.4 多关系数据挖掘企业运营过程中收集、积累的数据绝大多数存储在信息系统的数据库中。最常用的数据库是关系数据库，由多个关系构成。每个关系对应一个表。数据仓库中的数据也多数是由关系数据库管理系统进行存储和管理。商务智能的实际应用中需要进行分析的数据通常是存储在多个表中。这种存储方式可以使得数据的冗余低，避免数据的不一致性。一个多关系的金融数据库数据库中存放了账户信息（account表）、客户信息（client表）、人口统计信息

您可能关注的文档

文档评论（0）

wyjy + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第13章复杂数据的商务智能分析方法..pptVIP