- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
台北慈济研究部曾奕翔生物统计分析师2018.4.27.PDF
台北慈濟研究部
曾奕翔 生物統計分析師
2018.4.27
資料探勘(挖礦)是尋找和分析資料的一個過程,主
要目的是找出隱含在資料中有用的資訊(Shaw et al.
(2001))
資料探勘如同挖礦的過程,從分析累積如山的資料
中,挖掘出如礦石般的特殊樣型或規則,經由一連
串的資料清理、整理與分析的過程,獲得其中最有
價值的資訊與知識(簡禎富、許嘉裕)
主要是從龐大資料中萃取出一系列變數或因子間的
關係,以探索資料之變數或項目隱含的關係(簡禎富、
許嘉裕)
Agrawal et al. Mining Association Rules
between Sets of Items in Large Databases
(1993)
研究者獲得了大量客戶交易數據庫。每筆交易都由
客戶購買的物品組成。研究者提出一個有效的算法
來生成所有的重要的數據庫中的項目之間的關聯規
則。該算法結合了更好的管理和新穎性估計和修剪
技術(pruning techniques )
研究者也呈現結果將該算法應用於從獲得的銷售數
據大型零售公司,這表明了該關聯規則的有效性
若A則B
例如:若下雨天,則雨傘的銷售量會增加
邏輯關聯-觀察力 邏輯思考
實證關聯
如顧客買尿布通常會一併購買啤酒,若買尿布則大
多都會買啤酒
亞馬遜網站購買書籍,網頁根據過去的交易紀錄找
到關聯規則,自動推薦相關書籍
個性一板一眼的大兒子:監督式學習 Supervised
learning =資料有標記(labeled)的狀況下套用
明察秋毫、善於分類的女兒:非監督式學習
Unsupervised learning =無標記( unlabeled)資料
即可套用
失敗就是進步,越挫越勇的老么:Reinforcement
learning=特徵是訓練必須要有正負回報
(positive/negative reward)
資料來源:講講科普
1.定義1 項目與項集
設I={i1,i2,…,im}是m個不同項目的集合,每個ik(k=1 ,
2 ,…… ,m)稱為一個項目(Item) 。
項目的集合 I 稱為項目集合(Itemset) ,簡稱為項集。其元
素個數稱為項集的長度,長度為k的項集稱為k-項集(k-
Itemset) 。
2.定義2 交易
每筆交易T(Transaction)是項集I上的一個子集,即TI 。
對應每一個交易有一個唯一的標識——交易號,記作TID
交易的全體構成了交易資料庫D ,或稱交易記錄集D ,簡
稱交易集D 。
交易集D中包含交易的個數記為|D|
原文網址:/Ld0DyP.html
1. 支持度(support)
項集X的支持度support(X)就是項集X 出現的機率,從
而描述了X的重要性 。衡量前提項目X與結果項目Y一
起出現的機率P(X and Y)
2.信賴度(confidence)
項集X發生的情況下,項集Y發生的條件機率P(Y|X)
3.提升比率(lift)
比較信賴度與結果項目Y單獨發生時兩者機率間的大小。
lift(X - Y) = lift(Y - X) = conf(X - Y)/supp(Y)
= conf(Y - X)/supp(X) = P(X and Y)/(P(X)P(Y))
原文網址:/Ld0DyP.html
Apriori
Apriori演算法為關聯規則分析中最早的模式之一,是
Agrawal與Srikant兩位學者於1994年所提出,主要目
的是將資料中高度關聯性的項目組合找出,常用於分析
賣場交易資料。
Partition
透過適當方式將資料分割成若干小群,再從這些類
別中分別搜尋高頻項目群,最後合併評估比較。
DHP
利用hash function過濾非高頻候選物項集合,以減少
候選項集合的數目
https://wizardforcel.gitbooks.io/dm-algo-top10/content/apriori.html
此例的分析結果如下:
1. 首先掃描項目集,轉成支持度C1
您可能关注的文档
- 创新驱动-中证指数.PDF
- 创新驱动未来-中国国际轴承及其专用装备展览会.PDF
- 利用CRISPRCas9n技术生产抗蓝耳病的基因编辑克隆猪.PDF
- 利用Hydrus1D反推土壤水力参数方法分析.PDF
- 利用蚁群智能挖掘地理元胞自动机的转换规则-中国科技论文在线.PDF
- 利用非洲爪蟾卵的提取物与LambdaDNA进行核重构试验ViewTable.PDF
- 制备型逆流分离系统-青海大型仪器.doc
- 动态交易资料库中线上关联法则探勘法之研究AStudyofMining.PDF
- 化学化工学院本科毕业设计撰写模版-安徽大学化学化工学院.doc
- 化学热力学基础FundamentalofThermochemistry.PDF
文档评论(0)