- 1、本文档共110页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
資料倉儲技術篇第 1 章 資料倉儲與資料採掘概述1.1 資料倉儲的發展與展望1.2 資料倉儲的架構1.3 資料倉儲的參照結構1.4 資料採掘技術1.5 資料採掘技術與工具 1.6 資料倉儲與資料採掘的應用 1.7 資料倉儲應用1.8 資料倉儲導向的決策支援系統1.9 資料倉儲的商業應用1.10 資料倉儲與資料採掘的應用習題 隨著資訊技術的不斷推廣和應用,許多企業都已經在使用管理資訊系統(MIS)處理管理交易和日常業務。這些管理資訊系統為企業累積了大量的資訊因此,在資訊處理中,產生了與傳統資料庫有很大差異的資料環境要求,和從這些巨量資料中獲取特殊知識的工具的需要。 1.1 資料倉儲的發展與展望傳統資料庫只保留了當前的業務處理資訊,缺乏決策分析所需要的大量歷史資訊。為滿足管理人員的決策分析需求,就需要在資料庫的基礎上產生適應決策分析的資料環境─資料倉儲 (DW,Data Warehouse)。 1.1.1 從傳統資料庫到資料倉儲決策處理的系統回應問題在傳統的業務處理系統中,客戶對系統和資料庫的要求是資料存取頻率要高,操作時間要快。在決策分析處理中,客戶對系統和資料的要求則發生了很大的變化。這些操作必然要消耗大量的系統資源,這是對業務處理即時反應的交易處理系統所無法忍受的。 決策資料需求的問題在進行決策分析時,需要有整體、正確的整合式資料,這些整合式資料不僅包含企業內部各部門的有關資料,而且還包含企業外部的,甚至競爭對手的相關資料。但是在傳統資料庫中,只儲存了本部門的交易處理資料,而沒有與決策問題有關的整合式資料,更沒有企業外部的資料。 在決策資料的整合中還需要解決資料混亂問題。例如,企業進行併購活動之後,被併購企業的資訊系統與併購企業的系統不相容,資料無法共享。例如,在系統開發中,由於資金的缺乏,只考慮了一些關鍵系統的開發,而對其他系統不予考慮,使決策資料無法整合。 例如,員工的性別在人力資訊系統中可能用邏輯值“M”和“F”表示,在財務系統中可能用數字“0”和“I”表示。例如,名稱為“GH”的欄位名稱在人事系統中表示為員工的“員工號碼”,但是在銷售管理系統中卻表示為“購貨號碼”。這樣在使用這些資料作出決策之前,必須對這些資料作分析,確認其真實含義。 在決策分析中,系統常常需要從資料庫中萃取資料、搜尋有用的資料,然後將這些資料導入其他文件或資料庫中,供客戶使用。這些被萃取出來的資料,有可能被其他客戶再次萃萃取。由於這種不加限制的資料連續萃取,使企業的資料空間構成了一個錯綜複雜的資料“蜘蛛網”(Spider’s Web),即形成了自然演化架構 資料的整合還涉及到外部資料與非結構化資料的應用問題。例如行業的統計報告、顧問公司的市場調查分析資料。這些資料必須經過格式、類型的轉換,才能被決策系統應用。為完成交易處理的需求,傳統資料庫中的資料一般只保留當前的資料。但是對於決策分析而言,歷史的、長期的資料卻具有重要的意義。 在決策分析程序中,決策人員往往需要的並不是非常詳細的資料,而是一些經過匯總、彙總的資料。決策資料操作的問題決策分析人員則往往希望以專業客戶的身份而不是參數客戶的身份對資料進行操作,他們往往希望能夠用各種工具對資料進行多種形式的操作,希望資料操作的結果能以商業智慧(Business Intelligence,BI )的形式呈現出來。資料倉儲與傳統資料庫的對比資料倉儲雖然是從資料庫發展而來的,但是兩者在許多方面都存在著相當大的差異,如表1-1所示。 資料庫只存放當前之值,而資料倉儲則存放歷史值資料庫中資料的目標是面對業務操作人員資料倉儲則是面對中高層主管資料庫內的資料是動態變化的,資料倉儲則是靜態的歷史性資料資料庫中的資料結構比較複雜,資料倉儲中的資料結構則較為簡單。 資料庫中資料的存取頻率較高,但是存取資料的數量較少;資料倉儲的存取頻率較低,但是資料存取量要遠高於資料庫。資料庫在存取資料時要求回應速度很快,資料倉儲的反應時間則可能長達數小時。 1.1.2 資料倉儲的定義與基本特色William H.Inmon在1993年所寫的論著《Building the Data Warehouse》則首先系統地闡述了關於資料倉儲的理論,為資料倉儲的發展奠定了里程碑。在內文中,他將資料倉儲定義為: “一個主題是導向的、整合式、隨時間變化的、不易失漏性資料的集合,用於支援管理層的決策程序”。主題式導向(Subject oriented)資料倉儲的創建、使用都是焦距於主題執行的。因此,我們必須了解如何按照決策分析來萃取主題;所萃取出的主題應該包含哪些資料內容;這些資料內容應該如何組織。 在確定主題之後,需要確定主題所應該包含的資 料。此時,應該注意不能將鎖定主題的資料與交易處理系統中的資料相混淆。 在主題的資料
文档评论(0)