台北慈济研究部曾奕翔生物统计分析师2018.4.27.PDFVIP

台北慈济研究部曾奕翔生物统计分析师2018.4.27.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
台北慈济研究部曾奕翔生物统计分析师2018.4.27.PDF

台北慈濟研究部 曾奕翔 生物統計分析師 2018.4.27  資料探勘(挖礦)是尋找和分析資料的一個過程,主 要目的是找出隱含在資料中有用的資訊(Shaw et al. (2001))  資料探勘如同挖礦的過程,從分析累積如山的資料 中,挖掘出如礦石般的特殊樣型或規則,經由一連 串的資料清理、整理與分析的過程,獲得其中最有 價值的資訊與知識(簡禎富、許嘉裕)  主要是從龐大資料中萃取出一系列變數或因子間的 關係,以探索資料之變數或項目隱含的關係(簡禎富、 許嘉裕)  Agrawal et al. Mining Association Rules between Sets of Items in Large Databases (1993)  研究者獲得了大量客戶交易數據庫。每筆交易都由 客戶購買的物品組成。研究者提出一個有效的算法 來生成所有的重要的數據庫中的項目之間的關聯規 則。該算法結合了更好的管理和新穎性估計和修剪 技術(pruning techniques )  研究者也呈現結果將該算法應用於從獲得的銷售數 據大型零售公司,這表明了該關聯規則的有效性  若A則B  例如:若下雨天,則雨傘的銷售量會增加  邏輯關聯-觀察力 邏輯思考  實證關聯  如顧客買尿布通常會一併購買啤酒,若買尿布則大 多都會買啤酒  亞馬遜網站購買書籍,網頁根據過去的交易紀錄找 到關聯規則,自動推薦相關書籍  個性一板一眼的大兒子:監督式學習 Supervised learning =資料有標記(labeled)的狀況下套用  明察秋毫、善於分類的女兒:非監督式學習 Unsupervised learning =無標記( unlabeled)資料 即可套用  失敗就是進步,越挫越勇的老么:Reinforcement learning=特徵是訓練必須要有正負回報 (positive/negative reward)  資料來源:講講科普  1.定義1 項目與項集 設I={i1,i2,…,im}是m個不同項目的集合,每個ik(k=1 , 2 ,…… ,m)稱為一個項目(Item) 。 項目的集合 I 稱為項目集合(Itemset) ,簡稱為項集。其元 素個數稱為項集的長度,長度為k的項集稱為k-項集(k- Itemset) 。  2.定義2 交易 每筆交易T(Transaction)是項集I上的一個子集,即TI 。 對應每一個交易有一個唯一的標識——交易號,記作TID 交易的全體構成了交易資料庫D ,或稱交易記錄集D ,簡 稱交易集D 。 交易集D中包含交易的個數記為|D|  原文網址:/Ld0DyP.html  1. 支持度(support) 項集X的支持度support(X)就是項集X 出現的機率,從 而描述了X的重要性 。衡量前提項目X與結果項目Y一 起出現的機率P(X and Y)  2.信賴度(confidence) 項集X發生的情況下,項集Y發生的條件機率P(Y|X)  3.提升比率(lift) 比較信賴度與結果項目Y單獨發生時兩者機率間的大小。 lift(X - Y) = lift(Y - X) = conf(X - Y)/supp(Y) = conf(Y - X)/supp(X) = P(X and Y)/(P(X)P(Y))  原文網址:/Ld0DyP.html  Apriori Apriori演算法為關聯規則分析中最早的模式之一,是 Agrawal與Srikant兩位學者於1994年所提出,主要目 的是將資料中高度關聯性的項目組合找出,常用於分析 賣場交易資料。  Partition 透過適當方式將資料分割成若干小群,再從這些類 別中分別搜尋高頻項目群,最後合併評估比較。  DHP 利用hash function過濾非高頻候選物項集合,以減少 候選項集合的數目 https://wizardforcel.gitbooks.io/dm-algo-top10/content/apriori.html  此例的分析結果如下:  1. 首先掃描項目集,轉成支持度C1

文档评论(0)

zcbsj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档