网站大量收购独家精品文档,联系QQ:2885784924

西安电子科技大大数据分析与应用方向常见问题解答.doc

西安电子科技大大数据分析与应用方向常见问题解答.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
西安电子科技大大数据分析与应用方向常见问题解答

西安电子科技大学计算机学院 ——大数据分析与应用方向工程硕士FAQ 大数据的概念? 大数据(big data),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。 大数据几乎无法使用大多数的数据库管理系统处理,而必须使用“在数十、数百甚至数千台服务器上同时平行运行的软件”。大数据的定义取决于持有数据组的机构之能力,以及其平常用来处理分析数据的软件之能力。大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。 大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括了大科学、RFID、传感设备网络、天文学、大气学、基因组学、生物学、大社会数据分析、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦查、社交网络、通勤时间预测、医疗记录、照片图像和图像封存、大规模的电子商务等。 大数据几大特点? 大数据4V+1C特点: Volume(海量):通过各种智能设备产生了大量的数据,PB级别可谓是常态,笔者接触的一些客户每天处理的数据量都在几十GB、几百GB左右,估计国内大型互联网企业每天的数据量已经接近TB级别。 Velocity(高速):大数据要求快速处理,因为有些数据存在时效性。比如电商的数据,假如今天数据的分析结果要等到明天才能得到,那么将会使电商很难做类似补货这样的决策,从而导致这些数据失去了分析的意义。 Variety(多样):大数据一般包括以事务为代表的结构化数据、以网页为代表的半结构化数据和以视频和语音信息为代表的非结构化等多类数据,并且它们的处理和分析方式区别很大。 Value(价值):大数据由于包含了大量信息,其中单独的信息并不具有很高的价值,但是将其进行统计分析以及计算和比较,可以从中发现大量隐藏的有价值的信息。利用这些信息,可以很大程度上提高生产效率。 Complexity(复杂):虽然传统的BI已经很复杂了,但是由于前面4个V的存在,使得针对大数据的处理和分析更艰巨,并且过去那套基于关系型数据库的BI开始有点不合时宜了,同时也需要根据不同的业务场景,采取不同的处理方式和工具。 共计四个层面: 数据体量巨大。从TB级别,跃升到PB级别(1T=1024G;1P=1024T)。 数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。 价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。 处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。 哪里会产生大数据? 文本是最大的野生最常见的大数据源之一。其中包括电子邮件、短信、微博、社交媒体网站的帖子、即时通信、实时会议以及可以转换成文本的录音信息。文本数据是现在结构化程度最低的,也是最大的大数据源。幸运的是,我们在驾驭文本数据、利用文本数据来更好地做商业决策方面已经做了很多工作。 时间数据与位置数据的价值也是大数据的主要数据源。随着全球定位系统(GPS)、个人GPS 设备、手机的出现,时间和位置的信息一直在增加。从Foursquare 到Google Places ,再到Facebook Places ,它们提供了大量的服务与应用,可以记录每个人在某个时间点的位置。 RFID数据,无线射频标签,即RFID 标签,是安装在装运托盘或产品外包装上的一种微型标签。RFID 标签上有一个唯一的序列号,这个序列号与UPC 类似的通用产品标识码不同。换言之,RFID 标签不仅能够识别出托盘上装的是Model 123 电脑,还能识别出托盘上装运的是独一无二的、特定的一套Model 123 电脑。 另外,如网络日志,传感器网络,社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务等。这些领域都是大数据的数据源,都是今后的研究方向。 大数据的应用领域? 目前大数据应用较广的行业有:电子商务、能源、医药、零售、互联网企业等等 政府:公共卫生安全防范、灾难预警 医疗机构:建立患者的疾病风险跟踪机制,提升药品的临床使用效果 电商公司:向用户推荐商品和服务 旅游网站:为旅游者提供心仪的旅游路线 企事业单位:提升营销的针对性,降低物流和库存的成本,减少投资的风险等等

文档评论(0)

ochengaj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档