第17届“二十一世纪的计算”学术研讨会图灵奖得主MichealStonebraker的主题演讲.docxVIP

下载本文档

1
0
约1.04万字
约 16页
2017-04-10 发布于四川
举报
版权申诉

第17届“二十一世纪的计算”学术研讨会图灵奖得主MichealStonebraker的主题演讲.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第17届“二十一世纪的计算”学术研讨会图灵奖得主MichealStonebraker的主题演讲

第十七届“二十一世纪的计算”学术研讨会　 ---图灵奖得主Micheal Stonebraker的主题演讲　　（信息数据来源：易达大数据）今天，我要跟大家谈谈大数据。大数据这个词其实是一些做营销的人发明的，大概是几年前的事情。然后我也非常高兴，我终于知道过去四十年自己到底在做什么，我原来是在做大数据。所以我想跟大家谈谈大数据对于我来说意味着什么，以及我认为的大数据中什么是重要的。　　关于大数据，很多人说意味着三件事情，这三个单词都是以字母V开头的。　　大数据的问题，第一个就是量（volume）很大。第二个是这些数据的产生速度（velocity）太快了，软件跟不上。第三个问题是数据来自许多不同的地方（variety），你需要进行数据整合，但这些数据来源太多了，你想要整合这些数据就非常困难。所以在这三个“V”领域你要解决的问题是完全不一样的，我分别给大家谈谈。 Big Volume大量数据在量方面，第一种情况是你要想做一些非常愚蠢的分析，比如说SQL分析。第二种情况是，你想要做非常复杂的分析。前者是比较简单的，如果你想做SQL分析的话，我知道你可能要在上百个节点，PB的数据上面运行二十到三十个生产实现，日以继夜地进行分析。在这些数据仓库产品中，有几款已经做得还不错了。所以，这个市场的需求其实已经被一些商业软件很好地解决了，比如说Vertica，就是这样的一家数据仓库公司。他们最大的用户叫做Zynga。Zynga开发了一个名叫FarmVille的游戏。Zynga会实时记录全世界每一个用户在玩他们的游戏时每一次的点击，这样的话就可以利用他们的数据做人工智能研究，看看如何能够让全世界的用户购买更多虚拟商品。所以，我认为这个问题已经得到了解决，因为现在即使你从用户身上获得大量的数据，他们也不会感到不快。但我要提醒一下大家，在过去十年里，我们已经经历了一个非常巨大的变化。大约十年以前，如果你去和一些卖数据仓库产品的公司聊的话，他们基本上卖的都是一种叫做“行存储”（row storage）的产品，这是指存储的下一个对象是同条记录的下一个属性。他们在磁盘上用行的方式存储数据。SQL服务器以前就是这样的。其他的数据仓库公司都是卖这样的产品。当时我成立的这家公司叫做Vertica。我们从另外一个角度来看待这件事情，把行转90度，变成列，用列的方式存储数据。于是存储的下一个对象就从同一条记录的下一个属性，转变为下一条记录的同一属性。这种方式比原来的行存储方式要快很多。Vertica完全颠覆了这个市场。它的速度比行存储产品要快50到100倍。这是颠覆性的。而这是由一家创业公司带来的。所以我认为，在这个市场上实现颠覆的一种常见方式就是成立一家公司，然后去挑战那些大公司，让他们感受到威胁。所以在过去的十年里，整个市场都开始转而采用列存储。其中包括微软的数据仓库产品PDW，也是用的列存储，不过是10年后才用的。为什么列存储的速度要比行存储快很多呢？当然，这背后有很深层次的技术原因，不过我现在没有时间去详细解释了。厂商要取得成功，他们必须做出转变。于是，基本上除了Oracle外，所有其他厂商都开始采用多节点列存储的方式，它的速度非常快。在过去的十年里，正是由于这种颠覆性的转变，数据仓库产品的性能提升了50倍。但是在我看来，这已经是明日黄花了，就像PeterLee所说的，人们现在感兴趣的是机器学习，机器翻译，数据聚类，预测模型，这些才是接下来要做的重要事情。借用华尔街的说法，我们已经进入了“股市分析员”的时代。这些分析员其实与火箭科学家无异。如果你是一名从事数据库工作的人员，当你仔细去看他们的算法和他们的工作，你会发现，其实大部分的算法都是采用数组形式的线性代数，而不是表格形式的SQL。这与现实世界毫无关系。如果你再仔细看这些算法的话，你会发现，其实大部分的算法都是内循环迭代，也就是执行几次诸如矩阵乘法、奇异值分解之类的线性代数运算。为了说明这一点，我来举一个非常简单的例子。这个例子就是人们为之疯狂的股票市场。股票市场有涨有跌。假设有两只股票——A和B，让我们来看一下它们在过去五年所有交易日的收盘价。如果你想的话，可以假设这两只股票是华为和阿里巴巴的股票。如果你在做电子交易，你可能想知道这两只股票的收盘价是否有关联，它们的时间序列是否有关联。如果有关联，那么如果一只股票涨了，你是否应该购买另一只股票？所以你能做的最简单的事情就是计算一下这两个时间序列之间的协方差。具体的做法我已从我的统计课本那里抄了下来——如果我没有抄错的话——就是幻灯片最下面的红色字。这就是你想要计算的东西。其实并不难。你在手机上也可以做这种计算。但现在，假设你要对纽约证交所的所有股票进行这样的计算，有差不多四千只股票