周期性数值区间关联规则探勘演算法概要.docVIP

下载本文档

0
0
约1.43万字
约 20页
2021-03-17 发布于山东
举报
版权申诉

周期性数值区间关联规则探勘演算法概要.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

週期性數值區間關聯規則探勘演算法摘要近年來，資料探勘已成唯一門新興的顯學。而由傳統關聯規則探勘延伸出的週期性關聯規則探勘，與數量關係關聯規則探勘，為其中兩個較新的領域。而在此前，此二領域只有單獨各自發展其研究方向，然若能將此二方向做結合，將可探勘出更有價值之關聯法則。本研究以最新開發出來的 GRA演算法為基礎作修改，加入週期性關聯規則探勘之概念，並搭配 PQAR演算法，以利用 GRA高效率之優點，找出週期性頻繁項目集後，再以 PQAR找出具有數值區間關係之關聯規則。關鍵字：資料探勘；關聯法則；週期性資料探勘；數量關係關聯規則探勘緒論近幾年來， Data mining 的重要性與日俱增，相關的研究與應用在各方面皆有豐碩的成果。其中又以關聯規則 (Association Rule) 探勘在交易資料上的應用最為廣泛。舉例來說，如果我們想要分析顧客的購買行為，那麼，針對交易資料庫 (transaction database) 可以探究出產品間的關聯性，藉以做交叉銷售等市場行銷的決策。一般說來，資料庫儲存的交易量都十分龐大 ( 數目從數十萬筆到數百萬筆不等 ) ，發展出一個有效率的演算法和改良現有的演算法因而十分重要。在以往的關聯規則裡，雖然能找到商品之間的關聯性，但是，對於整個資料庫存在而言，這一類的方法所找出的 association rules 所考慮的時間範圍是包含了整個資料庫所存在的時間範圍；對於在現實生活中的人們，會依季節的不同，星期的循環，或是特定的節日來安排我們的活動，因此，若我們將時間的特性也考慮進去時，則將可挖掘出更多令人有興趣且特殊的有用關聯規則。而在實際的應用上，由於交易資料隨著時間而遞增，因此如何維護新增或減少的資料將是一個必須解決的問題。以往新增交易資料後，為了求得最新的資訊，此時，需將整個資料庫再一次完整地重新分析、探勘、評估，來取得符合的規則或型樣 (Patterns) 。這樣不僅重複探勘已存在資料庫中的交易紀錄，而且大量花費時間，造成時效與處理成本上的浪費。透過漸增式的探勘模式，當資料庫中有新增資料時，以原來上次探勘後儲存的結果為基礎，只針對新的資料作資料探勘，得到新資料部分的結果，與舊有結果合併，如此便能增進效率並節省冗長的分析時間。此外，目前大部份的研究都是針對交易資料庫中的關聯規則探勘提出演算法，然而，卻只能找出項目間同時出現的關聯規則，而不考慮項目的數量關聯。換句話說，在以往的資料探勘方法中，會將購買三瓶牛奶和一包麵包與一瓶牛奶和三份麵包的交易視為相同交易內容 (即同時包含牛奶和麵包 )。諸如此類的作法，將導致我們遺漏掉一些重要的隱藏訊息，例如：一位消費者買超過十瓶牛奶，則他同時三份麵包以上的可能性與只買一份麵包的可能性，就很可能有著極大的不同。因此，我們除了採用以往一般的關聯規則所具有的特性之外，將會再考慮消費者所購買的各項商品的數量及其可能性。本研究將以最新開發出來的 GRA演算法為基礎作修改，加入週期性關聯規則探勘之概念，並搭配 PQAR演算法，以期利用 GRA高效率之優點，找出週期性頻繁項目集後，再以 PQAR找出具有數值區間關係之關聯規則。相關文獻探討 2.1 FUP 演算法 FUP演算法主要概念為將舊的頻繁項目集與它們的出現次數儲存起來，再根據變動的資料庫部分去更新這些舊的頻繁項目集的出現次數，最後再計算剩下的候選項目集的出現次數，整個演算法加速的關鍵在對於舊的頻繁項目集我們只需考慮變動的資料庫的部分即可，但是演算法本身卻容易產生過多的候選項目集，以及需要掃描資料庫多次，以至於效率無法提昇。 DB 原有的資料庫 LK ， DB ， LK DB+ CK ，新增的部份本篇研究在漸增式探勘方面將採用 FUP之概念，但以更有效率的 GRA演算法基礎，以改善 FUP在執行效率不佳之缺點。 2.2 Temporal Apriori 演算法 Temporal Apriori 沿用 Apriori 的基本架構，採用一層接一層掃瞄資料庫得到 large itemsets ，再以得到 large itemsets 產生或沒有 candidates 產生為止。在產生 itemset 的 candidates 時，應用到集合的觀念：“一個 large itemset 的所有子集合都是 large itemsets ” 得到在產生 candidate itemsets 時的一個重要原則： “當一個 itemset 不是 large 時，他的任何 superset 都不應該產生成為一個 candidate itemset ” 上述的原則在各種類的 association rules mining 中被廣泛的用來減少 candidates 的產生。