数据挖掘实验一关联规则挖掘.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘实验一关联规则挖掘.doc

关联规则挖掘 Association Rule Mining 【一】题目要求 Data Description: The marketing department of a financial firm keeps records on customers, including demographic information and, number of type of accounts. When launching a new product, such as a Personal Equity Plan (PEP), a direct mail piece, advertising the product, is sent to existing customers, and a record kept as to whether that customer responded and bought the product. Based on this store of prior experience, the managers decide to use data mining techniques to build customer profile models. In this particular problem we are interested only in deriving (quantitative) association rules from the data (in a future assignment we will consider the use of classification. Your goal: perform Association Rule discovery on the data set. 具体的实验数据在bank-data.txt文件中 【二】实现思路 某财务公司生产了一种新产品,本题提供了600个客户的记录,对这些客户的不同属性进行数据挖掘。根据题目要求,首先应该对数据进行全面分析。有些属性可以忽略不计,因此,需要识别出哪些是特殊属性,哪些是可忽略属性。然后对非离散数据进行离散化,最后通过aprior算法进行关联规则和相关性分析,来挖掘出频繁项集。 【三】解题过程详细分析 采用Apriori算法发现频繁项集。Apriori算法是发现频繁项集的基本算法。Apriori算法该算法使用逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合。记作L1,然后L1用于找频繁2项集的集合L2,如此循环下去,直到再找不到频繁项集。找每个LK需要一次数据库扫描。 Apriori算法思想如下: 1) = find_frequent_1_itemsets(D); 2) for (k = 2;; k++) { 3) = aproiri_gen(,min_sup); 4) for each transaction t∈D{ //scan D for count 5) = subset(,t); //get subsets of t that are candidates 6) for each candidate c∈ 7) c.count++; 8) } 9) ={|c.count ≥ min_sup} 10) } 11) return L = ; procedure apriori_gen(Lk-1: frequent (k-1)-itemset; min_sup: support) 1) for each itemset ∈ 2) for each itemset ∈ 3) if ( [1]= [1])∧...∧([k-2]=[k-2])∧([k-1] [k-2]) then { 4) c = ; //join step: generate candidates 5) if has_infrequent_subset(c, ) then 6) delete c; // prune step: remove unfrequent cadidate 7) else add c to ; 8) } 9) return; procedure has_infrequent_subset(c:candidate k-itemset; :frequent (k-1)-itemset) // use apriori knowledge 1) for each (k-1)-subset s of c 2) if then 3) return TRUE; 4) return FALSE; 【四】实现步骤 在weka

文档评论(0)

gdkb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档