- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据发展应用浅析
大数据发展应用浅析
摘 要:近两百年来,知识爆炸,科学技术飞速发展,工业化已极大的改变了人们的生活方式。在这中间,数据信息作为伴随产物也井喷式涌现从而迎来大数据时代。大数据信息量大种类繁杂,价值巨大但是密度较低。分析处理过程也较为复杂,大数据目前已在商业领域、科学领域和网络领域等有所应用,前景巨大。但它在应用过程中也伴随着一些隐患,如个人隐私泄露问题,企业国家机密保护等。如何有效的,健康的运用大数据成为我们目前的研究方向。
关键词:大数据技术;数据分析;数据挖掘;信息安全
中图分类号:TP311 文献标识码:A 文章编号:1671-2064(2017)22-0014-02
1 大数据的简介
1.1 大数据概念及其发展背景
大数据,顾名思义就是大的数据,这个大指的就是数据大而全。它拥有五个显著特点即5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。[1]理想的大数据可以说包含人类活动的所有信息,相对于现有数据使用来说,大数据是我们无法在一定时间获悉,捕捉,处理和管理的,它需要新的一套方法,需要更强更全面的洞察力、决策力和处理能力来满足大数据的利用需求。
数据是我们从古至今都使用的传递信息的媒介,在工业革命之前,人类知识总量较少,社会全部的数据信息也很少,人们对数据的使用停留在部分小数据,局部数据阶段。这种情况下,人们生产交流都会产生许多没有实际效益的无用功。计算机带来的网络化使得数据信息急剧增长。现代社会不仅充斥着大量信息,而且其发展速度也在飞速增长,随着经济发展的网络化,数据越来越占据主导地位。从监控到科学教育,从网络到工业,各行各业都在数据中生存。未来将是大数据的时代。[4]
1.2 大数据技术的特点
大数据技术包含对数据的获取和捕捉,分析和处理,应用和反馈等。它是一套系统的过程,在这个过程中,数据的获取和捕捉相当繁琐和困难,因为大数据本身信息量巨大而且种类极其繁多,要获取和整合这些数据需要大量的人力物力财力,必须依靠先进的计算机知识,数学统计知识,并且要对数据整体有足够把握情况。大数据技术还需要极为强悍的服务器和分析处理设备及方法,因为我们需要对繁杂的数据进行提取,提取到的有用信息才能产生价值。另外安全问题作为大数据技术的衍生问题也需给予足够重视,它决定了我们是否可以长期的,有效的利用大数据进行发展。
1.3 大数据的处理分析方法
我们研究大数据技术是为了避免因为信息缺失而做的无用功,使社会运行尽可能高效化。因此从大数据中提取有用信息才是我们的关键目的。
从技术上看,大数据与云计算是相辅相成的,它们必须协同合作。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。[3]大数据需要的关键技术参照表1。
对分布式文件系统而言,我们需求的文件系统不是在本地储存中,而是储存在另一个终端,这类似于服务器的工作原理。分布式文件系统的设计基于客户机/服务器模式。一般来说,可以有多个服务器存在于一个网络平台上,这样用户就可以实现访问的全面和自由化。分布式文件系统巧妙解决了巨量数据的管理和储存:将原来只能储存在我们本机的数据,扩散到一个大的网络平台上,再分散到多个储存点,而我们可以通过通信网络轻松的访问这些数据,从而实现了数据的共同储存,共同使用,打破了传统中使用和储存绑定在一起的模式。我们在使用过程中只需要按照自己的需求进行存储、访问和管理。如此在现有的硬件模式下,极大地拓宽了数据的流量。
对实时处理而言,它要求数据的新鲜度,而流处理的方式可以很好的满足这个要求,应用流处理方式,把数据分流之后使其分批到达。而在数据分批到达的过程中,因为其本身带有大量数据,所以内存中只需要保存少量数据。流处理工作精度通常在秒或毫秒级别。
就数据分析技术而言,我们应尽量使数据简单易懂,即表示为人可以理解的语言,这就是自然语言。在人工智能发展中,越来越需求我们以自然语言与数据进行交流,而不是用人造语言如C语言之类无法直接理解的语言去沟通。
机器学习就是让机器拥有学习的能力,也就是说让计算机可以自己增长知识量,而计算机本身拥有极强的运算和整合分析能力,据此计算机将可以规划出最优的行动决策,这点是我们人脑难以达到的,机器学习推动人工智能的发展,未来的机器可以代替人类进行某些方面的工作,进一步解放人类。
2 大数据的相关应用
大数据技术的最终目的是应用,我们研究它是为了创造价值,表2列举了大数据技术现有的应用情况,下面将分三个方面介绍。
2.1 商业领域应
原创力文档


文档评论(0)