基于商品分类信息关联规则聚类.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于商品分类信息的关联规则聚类 阮备军 朱扬勇 (复旦大学计算机与信息技术系,上海 200433) (E-mail: ruanbj@) 摘要 关联规则挖掘经常产生大量的规则,为了帮助用户作探索式分析,需要对规则进行有效的组织。聚类是一种有效的组织方法。已有的规则聚类方法在计算规则间距离时都需要扫描原始数据集,效率很低,而且聚类结果是固定数目的簇,不利于探索式分析。针对这些问题,提出了一种新的方法。它基于商品分类信息度量规则间的距离,避免了耗时的原始数据集扫描;然后用OPTICS聚类算法产生便于探索式分析的聚类结构。最后用某个零售业公司的实际交易数据作了实验,并通过可视化工具演示了聚类效果。实验结果表明此方法是实用有效的。 关键词 数据挖掘,关联规则,聚类,可视化 中图法分类号 TP311 Association Rule Clustering Based on Taxonomy Information RUAN Bei-jun, ZHU Yang-yong (Department of Computing and Information Technology, Fudan University, ShangHai 200433, China) Abstract Association rule mining often produces a large number of rules. To facilitate exploratory analysis structuring rules is needed. A useful method for structuring rules is clustering. All of existing methods for clustering rules suffer from the costly scan of the original dataset for determining the distances between rules. Moreover, the result of these methods is a fixed number of clusters that makes exploratory analysis difficult. A new method is proposed to overcome these problems. Taxonomy information is used to measure the distances between rules and the expensive scan of the original dataset is avoided. A Clustering algorithm, OPTICS, is applied to generate the clustering structure suitable for exploratory analysis. Finally, an experiment is conducted on a real-life dataset and the experimental result is presented via a visualization tool, showing our method is practical and effective. Keywords data mining, association rule, clustering, visualization 引言 关联规则挖掘是一项常用的数据挖掘技术,但是经常产生大量的规则,其中大部分并不令人感兴趣。此问题使得发现令人感兴趣的规则变得十分困难。兴趣度度量(interestingness measure)可以帮助用户过滤出可能令人感兴趣的规则,缩小搜索的范围,但是在很多情况下用户需要浏览和分析整个挖掘结果。这是因为规则是否令人感兴趣是主观的,依赖于用户的领域知识和当前的兴趣。然而在实际应用中用户却常常不知道自己当前的兴趣是什么,需要对挖掘结果进行一番探索,在探索中逐步建立或想起自己的兴趣所在。因此帮助用户对挖掘结果作探索式分析的技术十分有用。与此相关的研究工作主要是关联规则的可视化[1][2][3][4][5]。现有的这些方法主要关心如何有效地显示出每条规则的内部信息,对规则只作了某种简单的排列。如果可视化空间中显示了大量的规则,规则的内部信息的提示作用会大大减弱,用户的探索工作会变得很困难。我们认为关键是大量的规则缺乏有效的组织。本文从交易数据库挖掘领域考虑这个问题,此类规则的前项(antecedent)和后项(consequent)都是项集(item se

文档评论(0)

nnh91 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档