- 1、本文档共98页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
的大型項目集
簡介(1) 單一購物車告訴我們個別顧客的消費行為,但是累積大量的購物車資料之後,可以分析整體顧客的消費習慣。 例如,顧客購買印表機時,他們是否也會購買報表紙?購買IBM PC主機的顧客是否會傾向於搭配 ViewSonic螢幕?顧客購買碳粉匣的數量是否和同時購買的報表紙數量有關係? 這些分析過的資訊可以幫助我們設計更好的網路購物環境,制訂更有效的行銷策略,提供顧客客製化的服務,進而提升整體的銷售業績。 簡介(2) 關連法則探勘的目的是找出交易中可能相關連的產品項目。 例如,根據商店中消費者每次交易所購買的產品資料,可以發掘出類似下列的關連法則:“80%的顧客如果購買碳粉匣,則也會購買報表紙”。 表7-1:網路交易資料庫 關連法則探勘的相關定義(1) 在交易資料庫中,每一筆交易包含交易編號與一組被購買的商品項目;而一組商品項目所成的集合稱之為 “項目集” (itemset)。 假設X是一個項目集,若所有在X中的項目皆被包含在交易T之中,則稱交易T支持 (support) 項目集X。 關連法則探勘的相關定義(2) 項目集X的 “支持個數” (support count) 被定義為“支持項目集X的交易總數”。 項目集X的 “支持度” (support) 則是 “支持項目集X的交易個數佔全部交易總數的比例”。 考慮表7-1的網路交易資料庫。商品編號為 “2” 的物品之 “支持個數” 為 5,亦即 “支持度” 為5/10=0.5;而項目集{2,5}的 “支持個數” 為 3,“支持度” 為3/10=0.3。 關連法則的形式為 “X ? Y [支持度,信心水準]”,其中 X 和 Y 代表項目集,X 被稱為 “條件句”,Y為 “結論句”。 法則X ? Y的支持度定義為項目集 的支持 度。 關連法則探勘的相關定義(3) 法則X ? Y的 “信心水準” (confidence) 是符合條件句與結論句的交易個數佔全體符合條件句的交易個數之比例,亦即 信心水準 ﹦ 關連法則探勘的相關定義(4) 關連法則必須滿足事先設定的兩個參數值:最小支持度 (minimum support) 與最小信心水準 (minimum confidence)。 最小支持度和資料庫中交易總數的乘積即是最小支持個數 (minimum support count)。 考慮表7-1,假設最小支持度與最小信心水準分別為0.2和0.5。關連法則 {1,3} ? {5}的支持個數為2,所以支持度為0.2,且項目集{1,3}的支持度為0.3,因此關連法則 {1,3} ? {5}的信心水準為0.2/0.3=0.67。 關連法則探勘的相關定義(5) 關連法則探勘的問題可以再細分為兩個子問題。 首先,找出所有支持度大於或等於最小支持度的項目集,稱之為 “大型項目集” (large itemset)。 接著,從大型項目集中產生信心水準大於或等於最小信心水準的關連法則。 假設Z 為大型項目集,所有形式為X?Y,滿足 、 以及信心水準大於或等於最小信心水準的關連法則都應該被產生。 很明顯的,一旦所有大型項目集被發掘之後,關連法則的產生將變得非常直接。 關連法則探勘的相關定義(6) 考慮表7-1的網路交易資料庫,若最小支持度與最小信心水準分別為0.2和0.7,則項目集{1,3}是大型項目集,因此可以考慮下列這兩條法則:{1}?{3}和{3}?{1} 法則{1}?{3}的信心水準為0.3/0.4=0.75 法則{3}?{1}的信心水準為0.3/0.5=0.6 其中只有法則{1}?{3}才是我們所想要的關連法則。 Apriori 演算法的基本精神 一個包含 k個項目的項目集被稱為 k-項目集 (k-itemset)。 符號Lk表示所有大型k-項目集 (large k-itemset) 所成的集合。 Apriori的基本精神是使用前一個階段所發掘的大型項目集來產生下一個階段的大型項目集。 也就是說,先找出所有大型1-項目集 L1,再利用L1 找出L2,然後利用L2找出L3,依此類推下去,直到下一個階段無任何大型項目集產生為止。 Apriori 性質 為了減少產生大型項目集所花費的計算時間,Apriori 使用一個重要的性質來減少搜尋的空間: Apriori 性質:一個大型項目集的任何子集合也必定是大型項目集。 假設{A,B}是一個大型項目集,根據大型項目集的定義,它的支持個數必定大於或等於最小支持個數。考慮{A,B}的兩個子集合{A}和{B}。 在交易資料庫中,項目集{A}的支持個數必大於或等於項目集{A,B}的支持個數,因此項目集{A}必定是大型項目集。 同理,項目集{B}也必定是大型項目集。 候選項目
文档评论(0)