缩小候选集的top―k高效模式挖掘算法.docVIP

下载本文档

2
0
约4.05千字
约 6页
2016-09-07 发布于北京
举报
版权申诉

缩小候选集的top―k高效模式挖掘算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

缩小候选集的top―k高效模式挖掘算法.doc

缩小候选集的top―k高效模式挖掘算法　　摘要：在通常的模式挖掘中，为了筛选出有效模式，用户需要设置阈值。但是，如何设定一个合适的阈值却是一件困难的事情。Top-k高效模式挖掘算法避免设置阈值，同时考虑了现实数据的一些属性的重要性。尽管相关算法近年已经提出，但是往往会产生大量的候选模式。本文提出了一种挖掘k个最有价值模式的算法，并且不会产生太多的候选项。它通过伺机选择阈值提高策略，从而有效缩小在挖掘过程中的候选集大小。　　关键词：阈值高效模式候选集　　中图分类号：TP39 文献标识码：A 文章编号：1007-9416（2015）03-0122-02 　　Abstract：In the usual pattern mining，in order to find out the utility pattern，the user needs to set a threshold.But to set an appropriate threshold is difficult.Top-k efficient pattern mining algorithm avoids setting threshold，taking into account the importance of some properties of real data.Although related algorithms have been proposed in recent years，but they tend to produce a large number of candidate patterns.This paper presents a top-k high utility pattern mining algorithms，and does not produce too many candidates.It increasesthreshold by opportune select strategy，which can effectively reduce the candidates set during mining process. 　　Key Words：Threshold；High value Patterns；Candidate 　　在超市零售数据分析中，涉及到效用模式挖掘问题。已经有人提出了相关的算法，但是会产生大量的候选模式集[2]。　　因此，本文提出了TKDC算法，主要改进工作有：（1）多种策略提高构建全局树时的阈值，减小树的大小。（2）通过提高阈值，有效减小了搜索空间。　　1 相关工作　　1.1 之前模式挖掘算法概览　　频繁模式挖掘的主要工作是挖掘出支持度比给定阈值高的模式。两种比发较有代表性的算法是Apriori[1]和FP-Growth树算法。高效模式挖掘算法如Two-Phase，IIDS，IUPH[3]算法能够找到所有的高TWU值的模式，然后找到最终的高效值模式。但他们有一个问题，会产生很多候选模式。Top-k高效模式挖掘（TKU）[2]是基于UP-Growth[5]算法的。通过各种策略不断提高阈值，以减少产生的候选模式。　　1.2 与之前算法的区别　　UP-Growth，UP-Growth+，MU-Growth算法需要设定一个阈值，本文提出的方法则不用。与TKU[2]算法比起来，TKDC提出了2-PUP，EIU，TWUD，ISD和SE+SP的策略提高阈值，减小候选模式数。　　2 TKDC算法　　TKDC算法使用了几种阈值提高策略，并利用OS策略，选择合适的策略提高阈值。　　2.1 基本概念　　事物T中的项目i都有一个量值，称为内部有效值iu（i，T）。每一个项目都有一个单位盈利，称为外部效用值eu（i）。在事物T中，项目的效用值u（i，T），是内部和外部有效值的乘积。　　2.2 算法概览　　第一次扫描数据库，采用2-PUP，TWUD和EIU策略，得到提高后的阈值minutil。第二扫描数据库时根据minutil，构建UP-Tree树并使用ISD和NU再次提高阈值，经过MC策略后得到候选模式，最后使用SE+SP策略从候选模式获取Top-k模式。　　2.3 全局树的构建　　在UP-Tree树中，保存着事务的信息。树中有一个头表，表中每一条记录包含了项目名称，估计的效用值，和指向树中的第一个相同名称的节点。　　2.3.1 2-PUP，TUD，EIU策略提高阈值　　对于事务，2-PUP首先找出事务中效用值最高的项目。然后计算每一个二项式模式效用值PU，并累加到2-PUP矩阵（2-PUPM）中。然后将minutil的值提高到矩