减少扫瞄交易资料数量有效率探勘关联规则.PDF

减少扫瞄交易资料数量有效率探勘关联规则.PDF

减少扫瞄交易资料数量有效率探勘关联规则

第十七屆資訊管理暨實務研討會 減少掃瞄交易資料數量有效率探勘關聯規則 陳垂呈 1, * 黃建安 1 李靖平2 陳宗義 3 1 南台科技大學資訊管理研究所 2 南台科技大學企業電子化學位學程 3 南華大學電子商務管理系 *E-mail: ccchen@.tw 摘要 本研究 以交易資料為探勘的資料來源,每一筆交易資料包含消費者曾經購買的產品 項目,分別設計 兩個演算法探勘關聯規則 :一是設計improve_CDAR 演算法 ,其修改 CDAR演算法對判斷項目集是否為高頻項目集的掃瞄交易資料 方式,以減少掃瞄交易資 料的數量,進而 達到改善 CDAR 演算法探勘關聯規則的執行效率 ;二是設計 improve_CDAR_P演算法,其依據交易資料的字首(prefix item) ,將包含相同項目個數的 交易資料進行排序,並將相同字首的交易資料形成一個區塊,只需掃瞄與項目集字首相 同的 交易資料區塊,即可判斷項目集是否為高頻項目集,進而達到improve_CDAR演算 法減少掃瞄交易資料的目的 。從實驗評估中顯示, improve_CDAR 演算法及 improve_CDAR_P演算法的執行效率 均可優於 CDAR演算法探勘關聯規則。 關鍵詞:資料探勘、關聯規則、 CDAR 、improve_CDAR 、improve_CDAR_P 第十七屆資訊管理暨實務研討會 減少掃瞄交易資料數量有效率探勘關聯規則 1. 前言 資料探勘 (data mining)目前已廣泛被運用在資料庫領域中 ,其目的是從大量交易資 料中挖掘隱藏、潛在有用的資訊與知識,對支援企業的行銷決策,可提供相當有用的參 考資訊[1, 2] 。從交易資料中 經由探勘的計算過程,可擷取出產品項目(items)之間的關聯 性,並以關聯規則(association rules)的形式表示之。在探勘關聯規則的方法中,由 Agrawal and Srikant (1994)提出 Apriori演算法是最具代表性的方法之一[3] ,其特性為簡單、容易 瞭解及實作。 在後續研究中,Tsay and Chang-Chien (2004)則提出 CDAR 演算法改善 Apriori演算法的執行效率[15] 。 本研究將以交易資料為探勘的資料來源,每一筆交易資料包含消費者曾經購買的產 品項目,在考量利用 CDAR演算法探勘關聯規則時 雖然已, 依據交易資料包含的項目個 數進行分群,但仍需要掃瞄同一群 組中全部的 交易資料,以判斷項目集是否為高頻項目 集。文中分別設計 兩個演算法探勘關聯規則 :一是improve_CDAR演算法 ,其利用 CDAR 演算法對交易資料分群化的概念,並忽略掃瞄 未包含項目集的 交易資料,可達到提升 CDAR演算法的執行效率;二是 improve_CDAR_P演算法,其在原先群組中再依據交易 資料的字首項目 (prefix item)進行排序 ,並將相同字首的交易資料形成一個區塊,只需掃 瞄與項目集字首相同的交易資料區塊即可,在減少掃瞄交易資料數量的情況下, 達到改 善 improve_CDAR演算法的 執行效率 。經由實驗評估中顯示,improve_CDAR演算法及 improve_CDAR_P演算法均優於 CDAR演算法探勘關聯規則的 執行效率。 本論文的架構如下:下一節中介紹探勘關聯規則的相關研究;第 3節中提出 improve_CDAR 演算法探勘關聯規則,並以一個實例作說明;第 4 節中提出 improve_CDAR_P 演算法探勘關聯規則,並以一個實例作說明;第 5節中實驗評估 improve_CDAR演算法及 improve_CDAR_P演算法的執行效能

文档评论(0)

1亿VIP精品文档

相关文档