八关联规则.ppt

下载文档

5
0
约5.38千字
约 37页
2017-09-20 发布于江苏
举报
版权申诉
保障服务

八关联规则.ppt

1、本文档共37页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

八关联规则

8.6 多维关联规则挖掘多维事务数据库DB的结构为(ID,A1,A2,…,An,items) ，Ai是DB中的结构化属性(例如顾客的年龄,职业,收入等)，而items是同事务连接的项的集合(例如购物篮中频繁项集)。每一个t=(id,a1,a2,…,an,items-t)由两部分信息组成：维信息(a1,a2,…,an)和项集信息。挖掘过程分为两部分：挖掘维度信息的模式和从投影的子DB中找出频繁项集。例如，事务DB如表8-3所示。要挖掘MD-模式时，可以使用最早由beyer和Ｒamakrishnan(它是个有效的“冰山立方体”，见下图)开发的改进BUC算法。 BUC算法的基本步骤如下:首先，在第一维(A1)中按值的字母顺序将每个项进行排序。 1.在该维中仅有的MD-模式为(a,*,*)，因为只有a值的支持度大于2。其它维的值(*)在第一步不相关，可取任意值。　在DB中选择那些具有MD-模式的项。即T01和T03事务。针对第二维(A2),值1和2,对简化的DB进行再一次排序。没有符合支持度的模式，所以不存在A1和A2值的MD-模式。因此可忽略A2。在第三维(A3)中按字母顺序进行排序。子集(a,*,m)出现两次，因此它是一个MD-模式。 2.重复步骤1的过程：只从A2开始，不需要搜索第一维。　第二次迭代从A2开始，MD-模式为(*,2,*), 针对A3，不存在其它MD-模式。最后一次迭代，从A3开始，(*,*,m)为MD-模式. 图8-6是BUC算法对表8-3的处理结果。 8.7 WEB挖掘在分布式的信息环境中,文档或对象通常被链接在一起,从而可以起到互相访问的作用。例如，WWW和在线服务，这类信息提供的环境，通过工具(如超链接、URL地址)从一个对象转到另一个对象，从而获得有用的信息。WEB是一个超8亿页的超文本的载体，而且信息量还在不断增长。几乎每天要增加100万个页面，而且页面每几个月就会更新一次，因此，每月会有几百G字节的数据在变化。 Web挖掘可以定义为使用数据库挖掘技术在Web文档和服务中自动在发掘并且提取信息。它涉及到整个挖掘的过程，而不仅仅是应用标准的数据挖掘工具。Web挖掘任务划分为４个子任务： 1.寻找资源─这是一个从Web上的多媒体资源中在线或离线检索数据的过程。　　电子时事通信、电子新闻专线、新闻组以及通过删除HTML标记得到的HTML文档。　2.信息选择和预处理─这是在上面的子任务中检索出的不同种类的原始数据的转换过程。　　转换过程既可以是一种预处理，比例删除停止字，障碍字等，或者旨在获得所需要的表示法，例如查找在训练主体中的习语，以第一顺序逻辑的形式表示文本等。　3.总结─总结是一个在个别Web站点上自动地发掘出综合模式的过程。　　本阶段使用了不同的综合目的机器学习、数据挖掘技术和指定的面向Web的方法。　4.分析─在这一过程中，执行生效和／或解释已挖掘出模式。 Web挖掘可以基于所挖掘的部分进行分类，分为3类: 1.Web内容挖掘─描述从Web文档发掘出有用的信息。　　内容包括：文本、图像、音频、视频、元数据以及超链接。 2.Web结构挖掘─挖掘Web上的链接结构中的潜在模型。 3.Web使用挖掘─挖掘在网上冲浪的过程或行为所产生的数据。　当1类和2类利用Web上的真实或主要数据时，3类就会从用户在同Web进行交互时的行为入手，挖掘第二级数据。这些数据包括访问Web服务器日志、代理服务器日志、浏览器日志、用户数据、注册数据、用户会话或交易、Cookies、书签数据以及任何个人同Web进行交互所产生的其他数据。在下两小节中，介绍Web挖掘的３个主要技术。 8.8 HITS和LOGSOM算法到目前为止，基于索引的Web搜索引擎是用户搜索信息的主要工具。问题是搜索引擎不适合那些大范围的不精确的搜索任务。我们的目标是能搜索出最主要的网页，即相关的且是高质量的网页。因此Web挖掘中必须发掘出两种重要类型的网页：权威页(提供了指定主题的最佳信息来源)和Hub页(提供同权威页链接的集合)。 Hub页的一个显著特征就是：它们是某个焦点主题的权威页的有力提供者。可以定义一个好的hub页，如果它是指向一些好的权威页。与些同时，一个好的权威页，是被一些好的hub页所指向的。两者之间的这种相互加强关系，正是HITS算法(Hyperlink-Induced Topic search)的中心思想，它正是一种搜索好的hub页和权威页的算法。 HITS算法的两个主要步骤： 1.取样组分(sampling component)，构建在相关信息中可能经常出现的网页的集合。在取样阶段，将Web视为一个网页的有向图。HITS算法首先构造子图，在子图中可以搜索hub页和权