大数据的未来.docVIP

下载本文档

8
0
约6万字
约 14页
2017-06-11 发布于贵州
举报
版权申诉

大数据的未来.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据的未来

大数据的未来如果真的能够实现这样的大数据软件建构，那么目前对大数据的某种定义将被完全推翻，在我们眼里大数据不过是用来固定的人类信息行为后为人类辅助的决策工具，这样的观点也将失效。下面是有关大数据的未来及人工智能的相关内容，一起来看看。大数据、人工智能与未来大数据和人工智能到底是什么关系?这是现在的热门话题。大数据和人工智能的关系，首先要说什么是大数据。这些年来，大数据先是被神化，继而又被妖魔化，到了今天，其实谁也不知道别人所谓的大数据指的是什么。有时候大数据的定义里既有平台(硬件)又有分析技术。但为了说清楚大数据和人工智能的关系，我们还是回归大数据的本质：海量的、多维度、多形式的数据。任何智能的发展，其实都需要一个学习的过程。而近期人工智能之所以能取得突飞猛进的进展，不能不说是因为这些年来大数据长足发展的结果。正是由于各类感应器和数据采集技术的发展，我们开始拥有以往难以想象的的海量数据，同时，也开始在某一领域拥有深度的、细致的数据。而这些，都是训练某一领域“智能”的前提。如果我们把人工智能看成一个嗷嗷待哺拥有无限潜力的婴儿，某一领域专业的海量的深度的数据就是喂养这个天才的奶粉。奶粉的数量决定了婴儿是否能长大，而奶粉的质量则决定了婴儿后续的智力发育水平。与以前的众多数据分析技术相比，人工智能技术立足于神经网络，同时发展出多层神经网络，从而可以进行深度机器学习。与以外传统的算法相比，这一算法并无多余的假设前提(比如线性建模需要假设数据之间的线性关系)，而是完全利用输入的数据自行模拟和构建相应的模型结构。这一算法特点决定了它是更为灵活的、且可以根据不同的训练数据而拥有自优化的能力。但这一显著的优点带来的便是显著增加的运算量。在计算机运算能力取得突破以前，这样的算法几乎没有实际应用的价值。大概十几年前，我们尝试用神经网络运算一组并不海量的数据，整整等待三天都不一定会有结果。但今天的情况却大大不同了。高速并行运算、海量数据、更优化的算法共同促成了人工智能发展的突破。这一突破，如果我们在三十年以后回头来看，将会是不弱于互联网对人类产生深远影响的另一项技术，它所释放的力量将再次彻底改变我们的生活。大数据未来——超级人工智能? 在百度大数据开放大会上，搞计算机学术理论的怀进鹏校长的演讲犹如给所有听众的一记闷棍，怀校长的学术演讲把大家弄得云里雾里，把所有人弄晕了，现场能够听懂的绝对是少数。可能都会觉得怀校长有点像个外星人一般在那自顾自的演讲。作为一个曾经有志从事人工智能研究但失之交臂的又是学计算机毕业的人却越听越兴奋，冥冥中似乎找到了未来的人工智能所能抵达的可能性，那么笔者现在就尝试把怀教授的演讲转换为大家也能够听懂的语言吧。 1、当前大数据的四大特征：规模大、变化快、种类杂、价值密度低。其实这理解起来很简单，我们来看新浪微博的大数据，为什么变现那么困难就知道了，新浪微博拥有庞大海量的用户大数据，但用这些行为数据变现却步履维艰，原因就在于微博上所产生的数据不够垂直，涉及面极广，而能够与商业相关的价值就更加难以挖掘了。 2、产业成果怀校长列举了三块内容，百度和谷歌熟悉用户浏览行为，进而提供个性化的搜索。淘宝亚马逊因为熟悉用户购物习惯，可以为用户提供精准的喜好物品。微博和twitter了解用户思维习惯和社会认知，可以为国家和企业提供民众情绪等系列数据。 1、大数据膨胀，如何处理算法以及数据的问题?上面提到的是通过改变算法来达到遍历数据的目的，但是在真正处理数据时依然是无法做到高效的，毕竟机器CPU的运算瓶颈摆在那里，算法工程师本质上在做的事情就是在现有的运算条件下，设计出最优方案，来求得最好的结果。 2、大数据膨胀，如何解决搜索问题?传统的算法在搜索数据时完全没有问题，因为数据量很小，但是当数据海量增长时问题就会凸显出来，用原来的算法去计算肯定是不行的，按照当前最快的硬盘检索速度(60GPS)，线性扫描完1PB(10TB的15次方)的数据需要天的时间，所以当数据海量膨胀时，必须重构算法策略来做数据的处理。百度目前的处理量是一天处理10PB的网页数据，这其中包括了运算和读取，算是目前最好的算法了。而怀校长告诉我们的这个挑战就是，在大数据的膨胀后，不仅要将原来的算法更换为近似算法，同样还要将数据更换为近似数据，只有二者合力改变才有可能在现有机器运算能力的情况下抵达最优的结果。同样是说起来容易做起来难，在这样的近似算法以及近似数据的改变下，到底该近似到何种程度，才能够最接近原算法的结果?要知道，在计算机世界里，差之毫厘失之千里，改变的量也许很小，但是如果一旦改错，就会造成巨大的错误结果