巨量资料基本概念
巨量資料基本概念
學習目標
瞭解何謂巨量資料、巨量資料的發展以及主要巨量資料
種類
瞭解巨量資料的問題與挑戰
3-1 巨量資料的基本觀念
根據 Google 前執行長 Eric Emerson Schmidt 的說法,人類在 2003 年之後每年
產生的資料量,是人類歷史活動總合之前一年的資料。換句話說,每年產生出資料的
數量是成指數成長的,如此一來,資料「放在哪」、「放得下」、「不會掉」,這三
點非常重要。以每年產生 10 ZB (2.5 EB × 365 天)的資料量,又以指數方式成長
的速度來看,人類的資料量在2020 年前會到達 YB 等級。
表3-1 位元組的次方單位
位元組的次方單位
名字 縮寫 次方
kilobyte KB 10 3
megabyte MB 10 6
gigabyte GB 10 9
terabyte TB 10 1 2
petabyte PB 10 1 5
exabyte EB 10 1 8
zettabyte ZB 10 2 1
yottabyte YB 10 2 4
以目前大家常用的硬碟為 1TB 容量,那麼 10ZB 就是 100 億顆這個容量的硬碟,
而且是每年 100 億顆。這麼多硬碟、資料及備份,且隨時可存取,還要從這麼多資料
中找出有意義的資訊,這些都是巨量資料中重要的課題。
3-1-1 什麼是巨量資料(Big Data)?
什麼是巨量資料?多大的資料量可以稱為巨量資料?於 20 世紀 80 年代早期,指
的是資料量大到需要儲存在數千萬個磁帶中的資料;到了 90 年代,指的又是資料量
超過單一桌上型電腦儲存能力的資料,不同的年代有著不同的答案。如今,巨量資料
3-2
Chapter
巨量資料基本概念
指的是那些關聯式資料庫難以儲存、單機資料分析統計工具無法處理的資料,這些資
料需要儲存在擁有數千萬台機器的大規模平行系統上。巨量資料出現在日常生活和科
學研究的各個領域,資料的持續增長使人們不得不重新考慮資料的儲存和管理。
隨著網路的興起,漸漸的人們也開始習慣在網路上分享和交流資訊。舉例來說,
社交網路 Facebook 擁有龐大的使用者群,且還在不斷增加中。這些使用者每天所發
出的文章及對話記錄更是不計其數,其資料量已經達到 PB 等級,傳統的解決方案已
經不可能去最佳化地處理這些資料。Facebook 自己開發了Cassandra 系統,現在又採
用 Hbase ,這些針對巨量資料的管理系統能夠提供給使用者較好地服務,而且具有可
擴充性和容錯性,這兩點是巨量資料問題所需要的效能。微博服務商 Twitter 也面臨
巨量資料的挑戰,訊息的發送量達到每天數億條,而查詢量則達到每天數十億次,這
要求儲存管理系統不僅能夠儲存大規模資料,而且能夠提供大量的讀寫服務。Twitter
原先使用 MySQL 資料庫,之後由於使用者暴增,便將資料移轉到 NoSQL 系統上,
儘管 NoSQL 還未成熟,但卻是解
您可能关注的文档
- 天都峰是黄山.PPT
- 央行节前继续释放流动性周一净投放1650亿.PDF
- 大气颗粒物-THEOL网络教学综合平台.PPT
- 如何!如何用身份证计算性别巧妙处理员工各种离职形为.DOC
- 如何培育大学生的自我实现人格-高苑学报-高苑科技大学.PDF
- 如何创建专业教学的梦之队--张勇-中国高职艺术设计教育网.PPT
- 如何应对贸易壁垒和贸易摩擦.PPT
- 妇幼保健院动静脉留置针标书-立医疗集团.DOC
- 如何提升无线网络的联机质量-MSI.PDF
- 如果海洋不见了932KB.PPT
- 2026年及未来5年内中国液体氩气行业投资前景及策略咨询研究报告.docx
- 2026年及未来5年内中国黄铜合页行业投资前景及策略咨询研究报告.docx
- 2026年及未来5年内中国竹工艺家具行业投资前景及策略咨询研究报告.docx
- 2025年中国微机数显自动分析仪市场调查研究报告.docx
- 2026年及未来5年内中国微尘白色粉笔行业投资前景及策略咨询研究报告.docx
- 2025年中国微电脑型压胶机市场调查研究报告.docx
- 2026年及未来5年内中国数字化等功游泳训练测试系统行业投资前景及策略咨询研究报告.docx
- 2025年中国圆形花瓶市场调查研究报告.docx
- 2026年及未来5年内中国植物纤维静淀过滤器行业投资前景及策略咨询研究报告.docx
- 2025年中国超音波手套机市场调查研究报告.docx
原创力文档

文档评论(0)