3国立联合大学资讯管理学系资料探勘课程.ppt

3国立联合大学资讯管理学系资料探勘课程.ppt

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3国立联合大学资讯管理学系资料探勘课程.ppt

Course 3 挖掘關聯式規則 Mining Association Rules;? Outlines;? Basic Concepts and a Road Map;“尿布與啤酒”──典型關聯分析案例;5;如果問題的全域是商店中所有商品的集合,則對每種商品都可以用一個布林量來表示該商品是否被顧客購買,則每個購物籃都可以用一個布林向量表示;而透過分析布林向量則可以得到商品被頻繁關聯或被同時購買的模式,這些模式就可以用關聯規則表示。 (0001001100,這種方法失去了什麼訊息?);What Is Association Mining?;給定︰ Items set: I={i1,i2,...,im} The task-relevant data D: 是資料庫交易的集合,每個交易T則是項目的集合,使得 每個交易由交易識別符號TID標識; A, B為兩個項目集合,交易T包含A if and only if 關聯規則是如下蘊涵式︰ 其中 並且 ,規則 在資料集D中成立,並且具有支持度s和置信度c;範例;Terminologies;Rule Measures: Support and Confidence;在探討關連規則的挖掘之前,我們必須先了解: 最小support控制了一個規則必須涵蓋的最少資料數目 最小的confidence則控制了這個規則的預測強度 當挖掘演算法找出滿足使用者訂定的最小support和confidence的關連規則,這個規則才算成立。 舉例來說,如果要產生A ? B(當發生A時,則會發生B)的關連規則時,我們所需要找出的itemsets便是{AB},如果: 我們設定最小support值為40%,且資料庫中有10,000筆交易記錄,則{AB}這個itemsets所出現的筆數必須大於等於4,000(10,000?40%)才算frequent itemsets(又稱large itemsets) 在{A}出現的所有記錄中,{B}也同時出現的比例,便是A ? B這個關連規則的confidence,假設我們設定的最小confidence值為60%,則{AB}出現的次數除以所有含有{A}的記錄數目所得的比例,若大於等於60%,則表示這一個規則成立。 上述的例子我們若以數學式來表示,support便是P(A ∪ B)的機率,confidence則是以條件機率P(B|A)表示,可整理成下面的式子: support(ATB) = P(A ∪ B) confidence(ATB) = P(B|A);大型資料庫中的關聯規則挖掘包含兩個過程︰ 找出所有頻繁項目集 大部分的計算都集中在這一步 由頻繁項目集產生強關聯規則 即滿足最小支持度和最小置信度的規則;Given: (1) database of transactions (交易資料庫) (2) each transaction is a list of items (一個項目列表,即: 消費者一次購買活動中購買的商品) Find: all rules that correlate the presence of one set of items with that of another set of items E.g., 98% of people who purchase tires and auto accessories also get automotive services done Applications ? ? Maintenance Agreement (商店應該怎樣提高保養用品的銷售?) Home Electronics ? ? (其他商品的庫存有什麼影響?);Association Rule Mining: A Road Map;Based on the types of values handled in the rule;Based on the number of data dimensions involved in the rule;Based on the levels of abstraction involved in the rule;? Mining Association Rules in Large Databases;Mining Association Rules—An Example;The Apriori principle: Any subset of a frequent itemset must be frequent if {beer, diaper, nuts} is frequent, so is {b

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档