一般而言,資料庫裡存放的資料通常都是在原始概念等級的細部資訊。例如,在一個銷售資料庫中會有產品名稱、品牌、類別、供應商、產地及價格等等。若能把其歸納至較高較一般化的層級,這對我們會是很有幫助的。像是,若我們將聖誕節的熱門商品的一般化特徵找出來,這對銷售及行銷經理人將會有很大的幫助。要達成這個任務就需要用到資料挖掘裡的一個重要功能——資料歸納。資料歸納主要有兩種方法:(1)資料方塊法(data cube approach),(2)歸性導向歸納法(attribute-oriented induction approach)。
資料方塊法
資料方塊法有許多其他的名稱,例如:多重維度資料庫(Multidimensional Databases)、具體化景觀(Materialized Views)、線上分析處理(OLAP, On-Line Analytical Processing)。資料方塊法的一般概念為具體化一些經常被要求的高成本計算,尤其是計數(count)、總計(sum)、求平均數(average)、取最大值(max)等的歸納函數,將具體化後的具體化景觀儲存在一個多重維度資料庫(資料方塊),可供決策支援、知識發現及其他應用做參考。
以資料方塊為基礎的歸納法方最早在[CCS93]中被提出,且這個方法被許多OLAP的資料倉儲系統採用。而[GCB97]提出在資料方塊中的運算子(operator),以供聚集(aggregation)運算使用。而在[CD97]裡則對各項議題有一般性的介紹。
資料方塊的操作是總計函數的N維度歸納,0維度資料方塊是一個點;1維資料方塊是一條線及一個點;2維資料方塊是一個交叉表格、一個平面、兩條線及一個點;3維方塊是一個有三個交叉的2維交叉表格的方塊。如下圖所示:
Red
Red
Blue
White
Group by
Sum
RedBlueWhiteChevyFordBy color
Red
Blue
White
Chevy
Ford
By color
Sum
0維(點)
By maker
2維(點、線、面)
1維(點、線)
Aggregate
Sum
By year
By year
1998
White
1999
Ford
Blue
Chevy
By color
By maker
Red
By year maker
By color year
By maker color
Sum
3維(資料方塊)
3維(資料方塊)
藉由資料方塊的方法,我們針對不同維度做計算,例如用製造商和年份這兩個維度便可以求出90年代Ford汽車的年平均銷售量。
對於許多應用而言,資料方塊是一項有趣的技術。索引多重維度資料方塊的技術和增加資料方塊的更新也己經被研究。但資料方塊可能是相當地疏稀,因為不是在每一維度中的格子(Cell)都會有相關的資料,所以如何能夠有效率地處理疏稀方塊的技術是必須被發展出來的。
屬性導向歸納法
屬性導向歸納法是一種以歸納為基礎的資料分析的技術,其技術核心為線上資料歸納方法,將相關式表格(relational dataset)資料集合中的每一個屬性,檢查其資料的分佈,判斷應歸納到那個相關的抽象層級。
屬性導向歸納法最早在[CCH91]中被提出,而在[HCC93]、[HF96]、[CH98]及[HNKW98]裡有其延伸性的探討。學者對屬性導向歸納法亦做過不少相關的研究:當某一個屬性的concept hierarchy不止只有一種分類法的時候,[HHC96]提出多屬性歸納圖(multi-attribute generalization graph)的方法來解決。[HC95]利用rough set快速地選出能夠產生區別性規則(discriminating rule)的屬性。
在屬性導向歸納法中,「概念階層」是處理歸納的過程中所必備的背景知識,不同階層的概念通常有不同的概念分類法。一個概念階層有「一般-至-特定」(general-to-specific)的順序性,最一般化的概念,是以”ANY”來表示之,最特定的概念,則對應到資料庫中某一特定的屬性值。
{freshman,sophomore,junior,senior}? undergraduate{M.S.,
{freshman,sophomore,junior,senior}? undergraduate
{M.S.,M.A.,Ph.D.} ? graduate
{undergraduate,graduate}? ANY(status)
ANY undergradu
原创力文档

文档评论(0)