近来在资料产生和资料收集方面的技术有非常-中央大学管理学院.DOC

近来在资料产生和资料收集方面的技术有非常-中央大学管理学院.DOC

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
近来在资料产生和资料收集方面的技术有非常-中央大学管理学院

資料間隱含關係的挖掘與展望 沈清正、陳仕昇1 高鴻斌、張元哲、陳家仁、黃琮盛 摘 要 資料挖掘指由大量資料中擷取出有價值之知識,亦即將資料轉換成知識的行為。這些資料包括一般交易資料或多媒體資料,而知識則是資料間隱含關係的具體表達與呈現。因為資料挖掘能協助企業取得知識並創造競爭優勢,故引起廣大的重視,也促成了許多新的研究方法、。。。。、、、。。association rule),是最重要的資料挖掘問題之一。它的目的是要從銷售的交易資料庫中,發現項目(item)間的關聯。若在許多交易中,我們發現某些項目的出現會引發其他項目的出現,這樣的關聯關係,即可以用關聯規則的型式加以表達。例如:牛奶(麵包。hashing技術 [53]、使用sampling方法 [74]、使用Partition資料庫的技術 [64]、使用closed itemset lattice [57]、使用item clique [42] 及使用FP-tree [34]。 關聯規則有許多種類,不過我們大體上可以將它分成以下三類[33]: 1. 以屬性值的型態為基礎: 如果我們所關注的只是item是否出現,這種便稱為布林值的關聯規則(Boolean association rule),例如「牛奶(麵包 (support=2%,confidence=60%)」即屬於這類關聯規則。如果我們也一併關注item的購買單位數,這種便稱為有重複項目的關聯規則(association rule with repeated items) [1],例如「2單位牛奶(3單位麵包 (support=2%,confidence=60%)」即屬於這類關聯規則。如果我們所要描述的規則其項目或屬性是一個數值,這種就稱為數量關聯規則(quantitative association rule)。但因為數量關聯規則的可能性太多,所以我們必須把數量值切割成不同的區間(可以事先就切好,或根據資料分布情況來切割,或根據語意、模糊函數、資訊含量等不同方式切割),才有辦法產生關聯規則。如下面的例子,X是代表消費者的一個變數。 年齡(X,40…45)^收入(X,7萬…8萬)(購買(X,海外基金) 2. 以規則中所涵蓋的資料維度為基礎: 如果在關聯規則中的項目或屬性僅參照單一的維度時,我們稱之為單一維度關聯規則(single dimensional association rule),例如我們將「牛奶(麵包」的關聯規則寫成「購買(X,牛奶(購買(X,麵包)),則其著眼的是「購買」這個維度。反之,如果關聯規則中的項目或屬性參照兩個以上維度時,便稱為複合維度關聯規則(multidimensional association rule),例如上述定量的關聯規則中的例子,便包含了「年齡」、「收入」以及「購買」等三個維度。 3. 以規則中所涵蓋的抽象層級為基礎: 如果在關聯規則中的項目或屬性可以屬於不同的概念層級,例如「年齡(X,中年)(購買(X,味全果汁牛奶)」(中年對於年齡而言屬於較高層級概念,但味全果汁牛奶對於購買項目而言屬於較低層級概念),則稱這類規則為跨層級關聯規則(multilevel association rule)。反之,如果沒有參照到不同層級的項目或屬性規則,則稱為單一層級關聯規則(single-level association rule)。 挖掘關聯規則的研究至今已算相當完整,然而不論是哪一種方式,在尋找large itemsets的過程中,所花費的時間成本均相當可觀,因此針對一個經常異動的資料庫作關聯規則的維護,是頗為重要的問題,也就是如何以增量(Incremental)方式來局部調整frequent itemsets,使關聯規則保持正確性,並避免重新進行整個挖掘程序所需花費的成本。以Apriroi演算法為基礎的增量維護技術已經有研究提出來[16],然而其他方式的增量模式則仍有許多研究空間可以發揮。另一方面,如何在線上迅速獲得關聯規則也是一個重要的議題,因為現存的large itemset計算演算法常以離線或批次的方法進行,它給定一個使用者指定的support門檻,之後資料庫必須再次讀取才產生所有的large itemset。然而,一般的使用者都無法事先知道該如何選擇合適的support門檻,如果選擇了一個不合適的support門檻,往往造成最後產生的關聯規沒有用。這方面的研究可以用建立Lattice並計算lower和upper bound的方式來進行。 資料順序性 最常見的資料順序性研究的問題是要從交易記錄中尋找有趣的循序樣式(Sequential Pattern),循序樣式的特點在於樣式中每個項目之間是有順序性的,因此在尋找循序樣式時,我們會有一個用以決定項目先後次序的衡量方式(如時間),所有的

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档