- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
缩小候选集的top―k高效模式挖掘算法.doc
缩小候选集的top―k高效模式挖掘算法
摘要:在通常的模式挖掘中,为了筛选出有效模式,用户需要设置阈值。但是,如何设定一个合适的阈值却是一件困难的事情。Top-k高效模式挖掘算法避免设置阈值,同时考虑了现实数据的一些属性的重要性。尽管相关算法近年已经提出,但是往往会产生大量的候选模式。本文提出了一种挖掘k个最有价值模式的算法,并且不会产生太多的候选项。 它通过伺机选择阈值提高策略,从而有效缩小在挖掘过程中的候选集大小。
关键词:阈值 高效模式 候选集
中图分类号:TP39 文献标识码:A 文章编号:1007-9416(2015)03-0122-02
Abstract:In the usual pattern mining,in order to find out the utility pattern,the user needs to set a threshold.But to set an appropriate threshold is difficult.Top-k efficient pattern mining algorithm avoids setting threshold,taking into account the importance of some properties of real data.Although related algorithms have been proposed in recent years,but they tend to produce a large number of candidate patterns.This paper presents a top-k high utility pattern mining algorithms,and does not produce too many candidates.It increasesthreshold by opportune select strategy,which can effectively reduce the candidates set during mining process.
Key Words:Threshold;High value Patterns;Candidate
在超市零售数据分析中,涉及到效用模式挖掘问题。已经有人提出了相关的算法,但是会产生大量的候选模式集[2]。
因此,本文提出了TKDC算法,主要改进工作有:(1)多种策略提高构建全局树时的阈值,减小树的大小。(2)通过提高阈值 ,有效减小了搜索空间。
1 相关工作
1.1 之前模式挖掘算法概览
频繁模式挖掘的主要工作是挖掘出支持度比给定阈值高的模式。两种比发较有代表性的算法是Apriori[1]和FP-Growth树算法。高效模式挖掘算法如Two-Phase,IIDS,IUPH[3]算法能够找到所有的高TWU值的模式,然后找到最终的高效值模式。但他们有一个问题,会产生很多候选模式。Top-k高效模式挖掘(TKU)[2]是基于UP-Growth[5]算法的。通过各种策略不断提高阈值,以减少产生的候选模式。
1.2 与之前算法的区别
UP-Growth,UP-Growth+,MU-Growth算法需要设定一个阈值,本文提出的方法则不用。与TKU[2]算法比起来,TKDC提出了2-PUP,EIU,TWUD,ISD和SE+SP的策略提高阈值,减小候选模式数。
2 TKDC算法
TKDC算法使用了几种阈值提高策略,并利用OS策略,选择合适的策略提高阈值。
2.1 基本概念
事物T中的项目i都有一个量值,称为内部有效值iu(i,T)。每一个项目都有一个单位盈利,称为外部效用值eu(i)。在事物T中,项目的效用值u(i,T),是内部和外部有效值的乘积。
2.2 算法概览
第一次扫描数据库,采用2-PUP,TWUD和EIU策略,得到提高后的阈值minutil。第二扫描数据库时根据minutil,构建UP-Tree树并使用ISD和NU再次提高阈值,经过MC策略后得到候选模式,最后使用SE+SP策略从候选模式获取Top-k模式。
2.3 全局树的构建
在UP-Tree树中,保存着事务的信息。树中有一个头表,表中每一条记录包含了项目名称,估计的效用值,和指向树中的第一个相同名称的节点。
2.3.1 2-PUP,TUD,EIU策略提高阈值
对于事务,2-PUP首先找出事务中效用值最高的项目。然后计算每一个二项式模式效用值PU,并累加到2-PUP矩阵(2-PUPM)中。然后将minutil的值提高到矩
文档评论(0)