资料顺序性之研究.DOCVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
资料顺序性之研究

資料順序性之研究 問題的說明與定義 資料順序性研究最基礎的問題在於從交易記錄中尋找有趣的順序性樣式(Sequential Pattern),循序樣式的特點在於樣式中每個項目的前後位置為樣式的識別特徵之一,也就是樣式中的項目之間是含有順序性的,因此在尋找循序樣式時,我們會有一個用以決定項目先後次序的衡量方式(如時間),所有的項目或項目集合依據該衡量方式在一維的方向上呈現順序排列,而尋找循序樣式就是要在這些循序排列的資料中找到有趣的規則;以在銷售記錄中進行順序性樣式的探勘為例,資料庫中的交易與交易之間可以依發生時間的先後加以順序排列,例如在時點1顧客甲購買了A物品,在時點2甲購買了B、C二項物品,在時點3甲又購買了D物品,經過排序與分析所有顧客的交易記錄之後,也許我們會發現有許多人在購買了A物品後,會再購買D物品,這就是一種順序性樣式的資料探勘問題。 現有應用 順序性研究在交易資料庫盛行的現在是一個很有價值的方向,資料庫中的交易資料通常是有時間上的順序性的,如在零售交易資料庫中交易發生的時間、時間序列資料庫中事件發生的時間、以及網站日誌中請求/回覆發生的時間等,如果在對這些資料進行探勘時,能導入順序性的限制,一方面可以在產生探勘結果時去蕪存菁,另一方面其所呈現的資訊將會更具有意義。 目前順序性資料探勘的研究與應用主要可概分為四大類,第一類是在銷售記錄資料庫的探勘中,將交易發生時間的順序列入考量,以期得到跨交易的顧客購買模式,上文所舉的例子就是這一類的探勘應用,這類的研究主要在挖掘方法,如[1、2、3],其中[2]可以避免反覆的讀取資料庫,[3]則強調處理較長的循序樣式的能力,另外[4]可以對所得的循序樣式進行漸進式的更新維護,[5]則改善尋找循序樣式時進行序列的比對的成本,[6、7、8]則是一些結合本類探勘技術與其他領域的應用,例如應用於資料探勘系統、計畫管理、資料庫系統等。 順序性資料探勘的第二類是在時間序列資料庫中尋找相似的循序樣式,或是於時間序列資料庫中進行相似性的查詢;因為時間序列資料庫的應用十分廣泛,所以順序性探勘也被大量的應用,例如在股價歷史資料庫中挖掘各股股價變動的相似樣式、在氣象資料中尋找符合某相似(循序)樣式的記錄、電信網路的警報分析[15]、在疾病資料中探勘時間序列樣式[16]等;目前這一類的順序性探勘研究包括了一般化的時間序列樣式的探勘演算法[9、10、11]、關鍵技術的改良[12]、特別化的時間序列探勘與應用[13、14、15、16]。 順序性資料探勘的第三類是於WWW的環境中尋找使用者的路徑尋訪樣式,我們可以將使用存取網頁的日誌合併、拆解成許多的路徑序列,然後從中挖掘相似的路徑尋訪樣式,目前這類的探勘研究包括了一般化的WWW路徑尋訪樣式挖勘[17、18、19、20、21、22],其中[22]將探勘的範圍擴大到一個提供多項服務的環境,另外因為WWW的日誌資料異於一般探勘所處理的交易資料,因此本類研究還包括了探勘程序中的前置處理以及探勘系統的架構[23、24、25]。 除了上述的三類,因為文字探勘(Text Mining)也是處理循序文字資料,並應用所得的循序樣式,因此我們將之視為順序性資料探勘的第四類,本類主要是於文字資料庫中探勘文字序列樣式,研究的方向包括了一般化的探勘演算法[26]、特殊化的探勘系統與探勘效率的改良[27、28]、文字序列樣式的應用[29、30、31]。 研究展望與議題 呈上文,我們將資料順序性研究的領域劃分為四個議題 – 交易資料庫中的循序樣式探勘、時間序列資料庫中的時間序列樣式探勘、分散式資訊服務環境下的使用者的路徑尋訪樣式探勘、文字資料中的文字序列樣式探勘,這四個議題從一般化的探勘演算法、特殊化的探勘演算法、效率相關的關鍵計算技術,到特殊的應用範例都已經有了一個完整的研究脈胳,然而相較於尋找大項項目集合的交易資料探勘,順序性資料探勘在尋找大項序列時,會需要更多的計算成本與空間成本,因此發展更有效率的探勘演算法是上述四個議題共同的未來發展方向,效率的改善一方面可以減少所需處理的候選樣式,另一方面可以則從降低過濾候選樣式的計算成本,就這此而言,目前的演算法尚有的改進空間;另外由於序列的特性,循序樣式有趣性的衡量,以及在預防資訊過量的考量下,探勘系統與使用者的互動,也都是值得注意的發展方向。在四個議題之中,第三類使用者尋訪樣式探勘必需有資料準備的前置處理動作,以將使用者存取日誌中的資料轉換成進行探勘的記錄,因此前置處理與整個探勘架構的有效性也是可能的研究方向。 整體而言,我們期望資料順序性的研究可以朝更有效率、針對使用者提供最價值的資訊的方向發展。 參考文獻 [1] R. Agrawal, R. Srikant: Mining Sequential Patterns, Proc. of

文档评论(0)

2105194781 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档