- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
零售资料探勘
零售資料探勘之困難與機會 中央大學資管系 陳彥良 資料挖掘 資料挖掘就是從資料庫中發現知識,將隱含的、先前並不知道的,和潛在有用的資訊從資料庫中粹取出來的過程。 目的是要從龐大的資料庫中,將潛在有用的資訊及知識挖取出來。 Data Mining 為何興起? 商品條碼之廣泛使用 企業界之電腦化,數以百萬計之資料庫正在使用,累積了大量企業交易資料 資料的問題 資料品質差。 資料太多但卻沒有真正有用的資訊。 Data Knowledge Knowledge Discovery in Databases (KDD) Data mining: the core of KDD process. 發票的資料內容 時間 店號 購買商品 購買數量 價格 總價 關聯規則 Itemset : 商品集合 Large itemset (frequent itemset): 經常被一齊購買的商品集合 Minimum support 最小支持度門檻 Minimum confidence最小信心門檻 Association rule關聯規則 : 顧客若買了X之後,很有可能會再買Y 從Large itemset我們可以推出關聯規則 Ex: minsup=20% sup{1}=6/10=60% sup{1,2}=4/10=40% sup{1,2,3}=2/10=20% 以上是large itemset sup{3,5}=1/10=10% sup{1,3,5}=1/10=10% 以上不是large itemset 產生關聯規則:minconf=50% {1}?{2} 規則成立 sup(1)=60%, sup(1,2)=40%, conf:67.7% {1}?{2,3} 規則不成立 sup(1)=60%, sup(1,2,3)=20%, conf:33.3% {1,2}?3 規則成立 sup(1,2)=40%, sup(1,2,3)=20%, conf:50% 問題 關聯規則只使用到『購買商品』的資料,其他資料完全沒有使用 購買數量沒有使用 購買時間與地點(店號)沒有使用 購買價格沒有使用 研究主題 加入購買數量的考量 加入時間地點考量 加入價格的考量 一、加入購買數量的考量 在一個真實的銷售銷售資料中,一筆交易不但會記錄所購買的商品也會記錄購買的數量 我們會希望不但能了解商品間的關係,也會希望了解商品數量間是如何彼此影響 區間切割—數值資料離散化 Crisp partition (1,5), (6,15), (16,40) Fuzzy partition 3 is 0.92/Short+0.08/Middle+0.0/Long 25 is 0.0/Short+0.23/Middle+ 0.77/Long 區間切割後找出的規則 (milk, S)? (bread, S), (coke, S) (juice, M) ?(milk, S) 結論 用區間切割的方式可以找出數量間的關聯規則 如果我們對知識(規則)的要求不是非常準確,則本方法尚堪使用 切割區間的困難 區間不重疊 必須合乎語意 區間不能太小或太大,太小則會使support不足,太大則會使規則籠統 商品種類多,每一種的資料分佈不相同 考慮所有可能區間(區間可以重疊) 哪些的規則是被包含、哪些是必要的? 哪些是有趣的? 樹狀的區間分割 二、加入時間及地點考量 傳統關聯規則挖掘方式只侷限於單一店面 沒有考慮每個產品可能有不同的上架期間 以零售業來說,有能力導入資料挖掘的企業大多具有多家連鎖店,故傳統關聯規則方法並不適用 傳統關聯規則只能提供單店的資訊 以醫院附近的店為例 假設50家商店,每家店平均交易筆數為1000筆 A品項只在其中5家商店販售,共銷售2000筆 傳統方式算出之support:2000/50000=0.04 但實際上的support值應為:2000/5000=0.4 連鎖店的資料挖掘 每一個商品有不同的銷售期且也都在不同的地方銷售 研究目的 以時間和地點為限制條件的關聯規則挖掘 不同商品計算support值時,必須以其上架時間及地點的交易筆數為基底 新挖掘方式能夠因應市場競爭及顧客需求,找出何地點的商店最適合在哪個時段販賣何種商品 在中午時段辦公大樓附近的便利商店,購買便當的顧客同時也會購買飲料 環境假設 一連鎖系列商店,共有n個店面 每個店面可以因應其特殊的環境而銷售不同的商品 為了因應市場的變化,不斷的調整銷售商品之組合 每個商品品項有不同的銷售時間及不同的銷售店面,甚至在不同的店面其銷售期間也都不同 交易資料庫 真實支持度 在有效基準Vx為基底所計算出x之actual support值,以
文档评论(0)