台北慈济研究部曾奕翔生物统计分析师2018.4.27.PDFVIP

下载本文档

5
0
约5.7千字
约 21页
2019-04-19 发布于北京
举报
版权申诉

台北慈济研究部曾奕翔生物统计分析师2018.4.27.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

台北慈济研究部曾奕翔生物统计分析师2018.4.27.PDF

台北慈濟研究部曾奕翔生物統計分析師 2018.4.27  資料探勘(挖礦)是尋找和分析資料的一個過程，主要目的是找出隱含在資料中有用的資訊(Shaw et al. (2001))  資料探勘如同挖礦的過程，從分析累積如山的資料中，挖掘出如礦石般的特殊樣型或規則，經由一連串的資料清理、整理與分析的過程，獲得其中最有價值的資訊與知識(簡禎富、許嘉裕)  主要是從龐大資料中萃取出一系列變數或因子間的關係，以探索資料之變數或項目隱含的關係(簡禎富、許嘉裕)  Agrawal et al. Mining Association Rules between Sets of Items in Large Databases (1993)  研究者獲得了大量客戶交易數據庫。每筆交易都由客戶購買的物品組成。研究者提出一個有效的算法來生成所有的重要的數據庫中的項目之間的關聯規則。該算法結合了更好的管理和新穎性估計和修剪技術(pruning techniques )  研究者也呈現結果將該算法應用於從獲得的銷售數據大型零售公司，這表明了該關聯規則的有效性  若A則B  例如:若下雨天，則雨傘的銷售量會增加  邏輯關聯-觀察力邏輯思考  實證關聯  如顧客買尿布通常會一併購買啤酒，若買尿布則大多都會買啤酒  亞馬遜網站購買書籍，網頁根據過去的交易紀錄找到關聯規則，自動推薦相關書籍  個性一板一眼的大兒子：監督式學習 Supervised learning =資料有標記(labeled)的狀況下套用  明察秋毫、善於分類的女兒：非監督式學習 Unsupervised learning =無標記( unlabeled)資料即可套用  失敗就是進步，越挫越勇的老么：Reinforcement learning=特徵是訓練必須要有正負回報 (positive/negative reward)  資料來源:講講科普  1.定義1 項目與項集設I={i1,i2,…,im}是m個不同項目的集合，每個ik(k=1 ， 2 ，…… ，m)稱為一個項目(Item) 。項目的集合 I 稱為項目集合(Itemset) ，簡稱為項集。其元素個數稱為項集的長度，長度為k的項集稱為k-項集(k- Itemset) 。  2.定義2 交易每筆交易T(Transaction)是項集I上的一個子集，即TI 。對應每一個交易有一個唯一的標識——交易號，記作TID 交易的全體構成了交易資料庫D ，或稱交易記錄集D ，簡稱交易集D 。交易集D中包含交易的個數記為|D|  原文網址：/Ld0DyP.html  1. 支持度(support) 項集X的支持度support(X)就是項集X 出現的機率，從而描述了X的重要性。衡量前提項目X與結果項目Y一起出現的機率P(X and Y)  2.信賴度(confidence) 項集X發生的情況下，項集Y發生的條件機率P(Y|X)  3.提升比率(lift) 比較信賴度與結果項目Y單獨發生時兩者機率間的大小。 lift(X - Y) = lift(Y - X) = conf(X - Y)/supp(Y) = conf(Y - X)/supp(X) = P(X and Y)/(P(X)P(Y))  原文網址：/Ld0DyP.html  Apriori Apriori演算法為關聯規則分析中最早的模式之一，是 Agrawal與Srikant兩位學者於1994年所提出，主要目的是將資料中高度關聯性的項目組合找出，常用於分析賣場交易資料。  Partition 透過適當方式將資料分割成若干小群，再從這些類別中分別搜尋高頻項目群，最後合併評估比較。  DHP 利用hash function過濾非高頻候選物項集合，以減少候選項集合的數目 https://wizardforcel.gitbooks.io/dm-algo-top10/content/apriori.html  此例的分析結果如下:  1. 首先掃描項目集，轉成支持度C1