资料探勘中的资料仓储.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
资料探勘中的资料仓储

第二章 資料探勘中的資料倉儲 和OLAP技術 本章大綱 第一節 資料倉儲的概念 第二節 多維度資料模型 第三節 資料倉儲的發展與設計 第四節 線上分析處理 前言 第一節,介紹資料倉儲的概念以及與傳統交易資料庫的差異。 第二節,介紹各類型的多維度資料模型,以提供資料倉儲使用。 第三節,介紹資料倉儲的設計與發展過程。 最後,介紹如何使用線上分析處理(On-Line Analytical Processing,OLAP)來進行資料的分析。 第一節 資料倉儲的概念 操作型資料庫系統 資料倉儲 操作型資料庫系統與資料倉儲的比較 操作型資料庫系統 在業界廣為應用的資料庫軟體,常用到的功能不外乎為執行線上交易或是查詢處理,因而也稱為線上交易處理系統(On-Line Transaction Processing,OLTP)。 線上交易處理系統,最主要在提供企業平日的所有交易紀錄之存取,因此,其資料庫又稱為操作型資料庫(Operational Database)。 資料倉儲 資料倉儲是一個「主題導向的」、「整合的」、「隨時間變化的」、「非揮發性的」資料集合,主要被用來使用在組織的決策制定功能。 資料倉儲(c2) 主題導向的(Subjected-Oriented) 資料倉儲的設計規劃必須是針對特定主題,譬如信用卡客戶評等 、股票投資市場的風險分析。 資料倉儲所欲解決的問題是決策分析的問題,而非交易導向的問題。 資料倉儲(c3) 整合的(Integrated) 資料倉儲是處理各種異質資料庫整合的工作。(Heterogeneous Database Integration) 異質資料庫包括關聯式資料庫、檔案和線上交易紀錄等不同的來源。 資料倉儲(c4) 隨時間變化的(Time-Variant) 資料倉儲是處理各種歷史性的資料並加以分析,而資料倉儲中的各項關鍵結構,不論是顯性或隱性,都包含時間要素。 非揮發性的(Nonvolatile) 資料倉儲不同於傳統的操作型資料庫系統,亦即不包含交易處理、回復與並行控制等機制。 操作型資料庫系統與資料倉儲的比較 OLTP系統的特性 是針對工商企業現行業務的自動化而設計的 是在協助工作人員執行既有的活動 多個使用者同時使用資訊系統 儲存的資料比較偏重細節 資料的來源是使用者日常工作的輸入 資料庫內容會隨時被新增、刪除以及變更 資料的處理是以交易為單位,交易時間短而且佔用系統的資源少 設計資料庫是採用正規化的設計方式 操作型資料庫系統與資料倉儲的比較 (c2) OLAP系統的特性 是針對工商企業資料分析需求而設計的 是在協助工作人員執行管理決策 同時間不會有太多使用者同時使用系統 儲存的資料偏重較高層級的彙總資訊 資料的來源是OLTP系統 資料庫的內容是歷史性的資料,不會隨時加以變更 設計資料庫不是採用正規化的設計方式 將分散各處的異質性資料整合到單一的資料集合之中 使用適合資料分析的結構來儲存資料 包含由日常交易資料轉換而來的資料 資料倉儲的資料在內部必須包含易於使用的瀏覽工具 第二節 多維度資料模型 多維度資料模型的定義 多維度資料庫的綱要 階層概念 多維度資料模型的定義 以往傳統的資料庫概念,是將資料庫裡存放的資料以初始概念等級的細部資訊加以儲存。 目前的資料倉儲概念,便是試著將儲存資料的初始概念等級加以歸納至更高的層級 。 而要將資料的階層概念往上提歸納,必須將資料倉儲的資料以多維度(Multidimensional)資料模式儲存,也就是所謂的資料方塊法(Data Cube Approach)。 多維度資料模型的定義(c2) 所謂的「多維度」是指利用多項不同分析問題的變項,將同一個資料庫用不同維度構面下去分析彼此的關連性,系統並可據此動態且即時的產生所需的報表。 而維度的表現方式則為:0維度資料方塊代表一個點;1維是代表每一個維度的每一個點;2維則是代表兩各維度的交叉表格;3維則是有三個維度交叉的立體方塊。 圖2.1 資料立方體的呈現方式 多維度資料庫的綱要 資料倉儲的資料是由事實資料(Fact Data)與維度資料(Dimension Data)所組成的。 事實資料是能夠反應過去事實的資料。 維度資料則是為了使查詢更加快速而立的索引參考資料。 而由事實資料表與維度資料表所組成的就是一個資料倉儲的資料架構,又稱為此資料庫的綱要(Schema) 多維度資料庫的綱要(c2) 星狀綱要(Star Schema) 最常見的資料庫綱要格式。 架構中間有一個事實資料表,而週邊則有多個未經正規化的維度資料表。 優點:使用OLAP進行查詢資料時,可提升查詢效率。 缺點:易造成整個搜尋暫存表(Search Table)會激增

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档