- 4
- 0
- 约3.57千字
- 约 14页
- 2024-03-26 发布于陕西
- 举报
第一章数据智能之起源
第三节大数据的基本特点1
一、4V特点大数据无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。这些海量资料来源于世界各地随时产生的数据,在大数据时代,任何微小的数据都可能产生不可思议的价值。24V特点IBM总结的大数据3V特点:规模性(Volume)、多样性(Variety)、实时性(Velocity)国际著名市场研究公司IDC等在3V基础上增加价值性(Value)
一、4V特点数据规模大(Volume)数据来源广:随着互联网技术的广泛应用,互联网的用户急剧增多,数据的获取、分享变得相当容易。在以前,也许只有少量的机构会付出大量的人力、财力成本,通过调查、取样的方法获取数据,而现在,普通用户也可以通过网络非常方便地获取数据。此外,用户的分享、点击、浏览都可以快速地产生大量数据。增长速度快:全球数据量正以前所未有的速度增长,数据的存储容量从TB级扩大到BB数量级。2008年全球产生的数据量高达1.82ZB,相当于全球每人产生200GB以上的数据。到2012年为止,人类生产制造的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据之中,有90%是过去两年内产生的。3
一、4V特点数据规模大(Volume)41Byte=8bit1Kb=1024Bytes1Mb=1024kb1GB=1024MB1TB=1024GB1PB=1024TB1EB=1024PB1ZB=1024EB1YB=1024ZB1BB=1024YB1NB=1024BB1DB=1024NB仟=103萬=104億=108兆=1012京=1016垓=1020秭=1024穰=1028沟=1032涧=1036正=1040载=1044俱胝=107阿庾多=1014那由他=1028频波罗=1056矜羯罗=10112阿伽罗=10224最胜=10448…….极量=1015762598695796736…….无尽=10138649284399962590788701913088…….不可说=104652297985247205555163324710981206016
一、4V特点数据种类多(Variety)数据类型多,按照数据结构分,数据可分为结构化数据与非结构化数据。非结构化数据又包含半结构化数据和无结构的数据。结构化数据通常存储在数据库中,可以用二维表结构来逻辑表达实现的数据。相对于结构化数据而言,非结构化数据是指不能用二维表结构来表现的数据,包括各种格式的办公文档、图片、图像、文本、HTML文档、XML文档,各类报表、音频和视频信息等。且在未来,非结构化的数据占比将达到90%以上。5结构化数据任何一列数据不可以再细分,并且任何一列数据都具有相同的数据类型。所有关系型数据库中的数据全部为结构化数据。IMDB电影评分排名电影评分1肖申克的救赎9.32教父9.23教父II9.1
一、4V特点数据种类多(Variety)6半结构化数据处于完全结构化数据和完全无结构的数据之间的数据,这种数据类型的格式一般较为规范,都是纯文本数据,可以通过某种特定的方式解析得到每项数据。最常见的半结构化数据是日志数据、采用XML与JSON等格式的数据。非结构化数据非纯文本类型的数据,这类数据没有固定的标准格式,无法直接解析出其相应的值。常见的无结构化数据有网页、文本文档、多媒体(声音、图像与视频等)。这类数据不容易收集和管理,甚至无法直接查询和分析,所以对这类数据需要使用一些不同的处理方式。
一、4V特点处理速度快(Velocity)7数据产生和更新的频率也是衡量大数据的一个重要特征,而数据处理需要尽可能的秒级响应。1秒定律,这是大数据与传统数据挖掘相区别的最显著特征。例如全国用户每天产生和更新的微博、微信和股票信息等数据,随时都在传输,这就要求处理数据的速度必须要快。否则,再有价值的数据,过了时效性,也失去存在的意义。
一、4V特点数据价值大(Value)8大数据的数据价值隐藏在海量数据之中。数据量在呈现几何级数增长的同时,这些海量数据背后隐藏的有用信息却没有呈现出相应比例的增长,反而是获取有用信息的难度不断加大。例如,现在很多地方安装的监控使得相关部门可以获得连续的监控视频信息,这些视频信息产生了大量数据,但是,有用的数据可能仅有一、两秒钟。我们淹没在数据的海洋,却又在忍受着知识的饥渴。
一、4V特点数据价值大(Value)9大数据潜在价值的实现包括三个层次
您可能关注的文档
- 数据库原理数据库原理 (47).pdf
- 数据库原理数据库原理 (48).pdf
- 数据库原理数据库原理 (49).pdf
- 数据库原理数据库原理 (50).pdf
- 数据库原理数据库原理 (51).pdf
- 数据库原理数据库原理 (52).pdf
- 数据库原理数据库原理 (53).pdf
- 数据库原理数据库原理 (54).pdf
- 数据库原理数据库原理 (55).pdf
- 数据智能与应用 (1).doc
- 03-2 2025年度民主生活会征求意见座谈会主持词.docx
- 03-1 2025年度民主生活会主持讲话提纲.docx
- 02-1 会前学习-《县以上党和国家机关党员领导干部民主生活会若干规定》相关要求.docx
- 在2025年度民主生活会上的总结讲话三篇.docx
- 在2025年度民主生活会上的总结讲话三篇 (3).docx
- 市委宣传部2025年度民主生活会查摆问题整改方案两篇.docx
- 在市行政审批和政务信息管理局机关2026年全体干部政绩观教育大会上的党课讲稿.docx
- X市应急管理局2026年度安全生产监督检查计划.docx
- 2025年度民主生活会领导班子对照检查材料(五个带头)三篇.docx
- 2025年度民主生活会“五个带头”个人对照检查材料三篇.docx
原创力文档

文档评论(0)