巨量资料基本概念.PDF

巨量资料基本概念

巨量資料基本概念 學習目標   瞭解何謂巨量資料、巨量資料的發展以及主要巨量資料 種類  瞭解巨量資料的問題與挑戰 3-1 巨量資料的基本觀念 根據 Google 前執行長 Eric Emerson Schmidt 的說法,人類在 2003 年之後每年 產生的資料量,是人類歷史活動總合之前一年的資料。換句話說,每年產生出資料的 數量是成指數成長的,如此一來,資料「放在哪」、「放得下」、「不會掉」,這三 點非常重要。以每年產生 10 ZB (2.5 EB × 365 天)的資料量,又以指數方式成長 的速度來看,人類的資料量在2020 年前會到達 YB 等級。 表3-1 位元組的次方單位 位元組的次方單位 名字 縮寫 次方 kilobyte KB 10 3 megabyte MB 10 6 gigabyte GB 10 9 terabyte TB 10 1 2 petabyte PB 10 1 5 exabyte EB 10 1 8 zettabyte ZB 10 2 1 yottabyte YB 10 2 4 以目前大家常用的硬碟為 1TB 容量,那麼 10ZB 就是 100 億顆這個容量的硬碟, 而且是每年 100 億顆。這麼多硬碟、資料及備份,且隨時可存取,還要從這麼多資料 中找出有意義的資訊,這些都是巨量資料中重要的課題。 3-1-1 什麼是巨量資料(Big Data)? 什麼是巨量資料?多大的資料量可以稱為巨量資料?於 20 世紀 80 年代早期,指 的是資料量大到需要儲存在數千萬個磁帶中的資料;到了 90 年代,指的又是資料量 超過單一桌上型電腦儲存能力的資料,不同的年代有著不同的答案。如今,巨量資料 3-2 Chapter 巨量資料基本概念 指的是那些關聯式資料庫難以儲存、單機資料分析統計工具無法處理的資料,這些資 料需要儲存在擁有數千萬台機器的大規模平行系統上。巨量資料出現在日常生活和科 學研究的各個領域,資料的持續增長使人們不得不重新考慮資料的儲存和管理。 隨著網路的興起,漸漸的人們也開始習慣在網路上分享和交流資訊。舉例來說, 社交網路 Facebook 擁有龐大的使用者群,且還在不斷增加中。這些使用者每天所發 出的文章及對話記錄更是不計其數,其資料量已經達到 PB 等級,傳統的解決方案已 經不可能去最佳化地處理這些資料。Facebook 自己開發了Cassandra 系統,現在又採 用 Hbase ,這些針對巨量資料的管理系統能夠提供給使用者較好地服務,而且具有可 擴充性和容錯性,這兩點是巨量資料問題所需要的效能。微博服務商 Twitter 也面臨 巨量資料的挑戰,訊息的發送量達到每天數億條,而查詢量則達到每天數十億次,這 要求儲存管理系統不僅能夠儲存大規模資料,而且能夠提供大量的讀寫服務。Twitter 原先使用 MySQL 資料庫,之後由於使用者暴增,便將資料移轉到 NoSQL 系統上, 儘管 NoSQL 還未成熟,但卻是解

文档评论(0)

1亿VIP精品文档

相关文档