- 32
- 0
- 约7.86万字
- 约 59页
- 2020-12-19 发布于江苏
- 举报
高平均效用项集挖掘算法研究
摘 要
高平均效用项集挖掘因其平衡效用而受到数据挖掘领域的关注,它不仅考虑
到项集的利润和数量,而且还考虑到项集的长度。
本文提出了一种基于效用累加求和上界的高平均效用项集挖掘算法
HAUIM-GMU 。对于该算法,我们首先将典型的最大效用和平均效用上界从项目
推广到项集,并讨论了其合理性;然后,基于支持度的概念,提出了一种新的剪
枝策略;最后,对算法进行了详细的描述。在真实数据集和合成数据集上的大量
实验表明,该算法具有良好的性能。
尽管近年来针对高平均效用项集挖掘任务设计了多种算法,但确定合适的最
小平均效用阈值来有效并精确控制挖掘结果仍是困难的。受Top-K 频繁项集挖掘
和Top-K 高效用项集挖掘的启发,本文提出基于交叉熵方法的Top-K 高平均效
用项集挖掘算法,其中K是要挖掘的高平均效用项集的期望数目,而不是常规设
置的最小平均效用阈值,该算法无需设计提高内部最小平均效用阈值和减小搜索
空间的各种有效策略,采用组合优化的方法解决Top-K 高平均效用项集挖掘问
题。实验结果表明,该算法是一种高效、节省内存消耗的算法,能够发现大多数
实际的Top-K 高平均效用项集。
原创力文档

文档评论(0)