网站大量收购闲置独家精品文档,联系QQ:2885784924

南京大学大数据专业方向工程硕士常见问题解答.pdfVIP

南京大学大数据专业方向工程硕士常见问题解答.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

好学近乎知,力行近乎仁,知耻近乎勇。——《中庸》

西安电子科技大学计算机学院

——大数据分析与应用方向工程硕士FAQ

1.大数据的概念?

大数据(bigdata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规

模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解

读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(dataset)相比,

将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商

业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途

正是大型数据集盛行的原因。

大数据几乎无法使用大多数的数据库管理系统处理,而必须使用在数“十、数百甚至

数千台服务器上同时平行运行的软件”。大数据的定义取决于持有数据组的机构之能力,

以及其平常用来处理分析数据的软件之能力。大数据必须借由计算机对数据进行统计、

比对、解析方能得出客观结果。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的

技术,包括了大科学、RFID、传感设备网络、天文学、大气学、基因组学、生物学、大

社会数据分析、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦查、

社交网络、通勤时间预测、医疗记录、照片图像和图像封存、大规模的电子商务等。

2.大数据几大特点?

大数据4V+1C特点:

Volume(海量):通过各种智能设备产生了大量的数据,PB级别可谓是常态,笔者接触

的一些客户每天处理的数据量都在几十GB、几百GB左右,估计国内大型互联网企业每天

的数据量已经接近TB级别。

Velocity(高速):大数据要求快速处理,因为有些数据存在时效性。比如电商的数据,

假如今天数据的分析结果要等到明天才能得到,那么将会使电商很难做类似补货这样的决

策,从而导致这些数据失去了分析的意义。

Variety(多样):大数据一般包括以事务为代表的结构化数据、以网页为代表的半结构

化数据和以视频和语音信息为代表的非结构化等多类数据,并且它们的处理和分析方式区别

很大。

Value(价值):大数据由于包含了大量信息,其中单独的信息并不具有很高的价值,但

好学近乎知,力行近乎仁,知耻近乎勇。——《中庸》

是将其进行统计分析以及计算和比较,可以从中发现大量隐藏的有价值的信息。利用这些信

息,可以很大程度上提高生产效率。

Complexity(复杂):虽然传统的BI已经很复杂了,但是由于前面4个V的存在,使得

针对大数据的处理和分析更艰巨,并且过去那套基于关系型数据库的BI开始有点不合时宜

了,同时也需要根据不同的业务场景,采取不同的处理方式和工具。

共计四个层面:

(1)数据体量巨大。从TB级别,跃升到PB级别(1T=1024G;1P=1024T)。

(2)数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。

(3)价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据

仅仅有一两秒。

(4)处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。

3.哪里会产生大数据?

文本是最大的野生最常见的大数据源之一。其中包括电子邮件、短信、微博、社交媒体

网站的帖子、即时通信、实时会议以及可以转换成文本的录音信息。文本数据是现在结构化

文档评论(0)

132****6693 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档