- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2006資料庫核心理論與實務 OLAP和資料倉儲 黃三益 國立中山大學資管系 OLAP Overview Data Warehouse的建置過程 Data analysis Problems with GROUP BY CUBE and ROLLUP 支援Data Warehouse的DBMS所具備的特色 Overview OLAP(On-Line Analytical Processing)主要被使用在資料分析的應用上。 資料分析包括四個步驟: 從一個大資料庫抓出想要的資料。 彙總存成一個檔案或表單 。 將結果以圖形化方式表示出來 。 分析結果後再從資料庫抓出其他想要的資料 。 試算表MS Excel就是一個這樣的資料分析工具。 Data Warehouse 資料倉儲被是用來支援決策技術,以能夠讓知識工作者做更好、更快的決策為目的。 資料倉儲通常是一龐大的資料庫,大於任何運作中的資料庫,因為它所包含的資料庫是含歷史資料和部門資料。這全然的資料量可能會以’兆’位元來衡量。 資料倉儲的建置程序。 Data Warehouse (Cont’d) Data analysis 資料分析工具視資料集為一個N維的空間。Figure1。 以關聯模式的觀點來看,就好像一個關聯裡有N+K個屬性,其中N個屬性試用來存’維度值’(dimensions),其他的K個屬性則用來存’測量值’(measures)。Figure2。 以這種觀點來看OLAP,便被成為ROLAP,相對於空間維度的觀點(MOLAP) Snowflake/Star Schema ROLAP有兩種形態的table。一個fact table 和 數個dimension tables。 一般採用Star Schema ,也有採用Snowflake Schema Star Schema裡的dimension table一般並不作正規化,以提高效率。 OLAP的資料一般很少改 Dimension table裡的主鍵一般是由系統產生,以減少Fact table裡外部鍵的大小。 Dimension Table裡的屬性可以形成一個hierarchy或lattice (e.g., date - (week, month) - year)。 Snowflake/Star Schema(Cont’d) Snowflake/Star Schema(Cont’d) Data analysis (Con’d) Data analysis (Con’d) 資料分析工具為了分析師的方便,廣泛地使用維度縮減(彙總和分群)。關聯資料庫依賴彙總函數和Group By運算子來進行維度縮減。 SQL的分群彙總愈來愈被廣泛使用,比如TPC-D的設定查詢裡有一6維的group by和三個3維的group bys。See table2。 Data analysis (Con’d) Data analysis (Con’d) 除了COUNT, SUM, AVG, MIN, MAX,很多的系統更進一步的提供許多彙總函數,例如:median, 標準差…等等。 有一些系統允許使用者去增加彙總函數,例如以下函數((Informix Illustra) Init(handle) Iter(handle, value) Value = Final(handle) Red Brick系統,一OLAP的廠商,增加以下的函數以方便應用系統利用。Figure3。 Data analysis (Con’d) Data analysis (Con’d) Rank(attribute):每一筆記錄的attribute屬性值,依其在所有attribute屬性值集合的位置傳回rank(等級)。 N-tile(attribute, N):將所有attribute屬性值由大到小分成N個等級。此函數傳回一筆記錄之該屬性值的等級(1..N)。 Ratio_To_Total(attribute):一筆記錄之attribute屬性值除以所有attribute屬性值的總和。 Cumulative(attribute):小於等於一筆記錄之attribute屬性值的累加值。 Running_Sum(attribute, n):小於等於一筆記錄之attribute屬性值最近n個值的累加值。 Running_Average(attribute, n):小於等於一筆記錄之attribute屬性值最近n個值的平均值。 Problems with GROUP BY SQL的Group By敘述,有三個主要的問題。 Histograms roll-up totals and sub-totals for drill-downs cros
您可能关注的文档
最近下载
- 2023年-2024年起重机司机(限桥式起重机)Q2作业证考试题库及答案.doc VIP
- DB37_T 5162-2020 装配式混凝土结构钢筋套筒灌浆连接应用技术规程.docx
- 幼儿园户外自主游戏观察与指导培训.pptx VIP
- 安全管理检查情况记录表.docx VIP
- 2024年全国职业院校技能大赛高职组(中药传统技能赛项)考试题库(含答案).docx
- 漫画解读--非煤露天矿山重大事故隐患判定标准.pdf
- 专题5:首发经济(课件 讲义)-备战2025年高考政治必备知识与时政热点对接(统编版).pptx
- 铁路建设项目甲供物资采购供应文件汇编.doc
- 深入贯彻中央八项规定精神学习教育党课(ppt).pptx VIP
- 2003版公路定额广西.pdf
文档评论(0)