第2届超大数据库会议(XLDB2008)大会报告(中文版).pdfVIP

下载本文档

0
0
约1.85万字
约 12页
2017-08-24 发布于湖北
举报
版权申诉

第2届超大数据库会议(XLDB2008)大会报告(中文版).pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第2届超大数据库会议(XLDB2008)大会报告(中文版)

第2 届超大数据库会议（XLDB2008 ）大会报告（中文版）第2 届超大数据库会议（XLDB2008 ）大会报告（中文版） REPORT FROM THE 2nd WORKSHOP ON EXTREMELY LARGE DATABASES Jacek Becla*1 and Kian-Tat Lim2 SLAC National Accelerator Laboratory, Menlo Park, CA 94025, USA *1 Email: becla@ 2 Email: ktl@ 温馨提示：本文由厦门大学计算机系林子雨老师翻译自XLDB 会议网站的英文报告，转载请注明出处，仅用于学习交流，请勿用于商业用途。 [本文翻译的原始出处：厦门大学计算机系数据库实验室网站林子雨老师的超大数据库技术资料专区/XLDB] 翻译者林子雨个人主页：/linziyu 【摘要】在科学界和业界，大规模分析的复杂性已经在近些年有了很大的提升。分析人员正在努力尝试使用复杂的技术，比如时间序列分析和分类算法，因为他们平时所熟悉的工具，虽然功能强大，但是可扩展性较差，无法有效使用可扩展的数据库系统。第2 届XLDB 大会，主要目的在于了解这些存在的问题，剖析这些问题的背后原因，并寻找相应的解决方案。大会还讨论了建设一个新的开源科学数据库 SciDB，这个构想是在第 1 届 XLDB 大会（XLDB2007 ）上提出来的。本文是本次大会活动和讨论的总结报告。【关键词】分析;数据库;千兆级;亿亿次级;大型数据库;超大数据库; 1 大会总结第2 届XLDB 大会，主要关注大规模复杂分析。与会代表包括数据密集型的科学和产业应用领域、数据库研究群体和数据库厂商。复杂分析。大会讨论了许多复杂分析任务的实例。产业应用通常集中在寻找和发现客户行为模式。这些产业分析所采用的工具，和科学家在执行发现模式和异常的分析时所使用的工具一样，比如时间序列分析和分类。数据集的大小正在急剧增加，增长率也在不断提高。当前一个最大的项目，每年都会新增加数万PB 的数据。类似R 、MATLAB 和EXCEL 等工具无法跟上数据增长的步伐，这使得分析人员不得不生成可以放入内存的样本数据，而不是使用所有数据。这些超大数据集的结构和针对这些数据集的应用，已经变得越来越复杂，因此，XLDB 系统必须在数据表示、处理和硬件方面，都能够保持灵活性。有一种可能的方法，虽然需要某种程度的文化改变，但是可以最大化灵活性并同时降低代价，这种方法是，以服务的方式提供分析工具，即使用一个中央 XLDB 来支持分散在各地的、具有不同分析需求的群体。必须避免管理成本随着数据量的快速增加而增加，因此，需要一个在发生硬件故障时仍然能够正常运行的自适应系统。 SQL 的面向集合的特性和行级别的ODBC/JDBC 接口，给使用数据库的人员造成了一定的障碍。基于数组的数据模型，在直观上和科学界以及业界遇到的数据类型比较匹配。和厦门大学计算机科学系教师林子雨翻译 /linziyu 第 1 页/共 12 页第2 届超大数据库会议（XLDB2008 ）大会报告（中文版）分析工具的集成，以及和编程语言（比如 C++和 DLL ）的集成，也会有一定的帮助。发明一种能够直接表达分析人员意图的语言，也是可能的，尽管这个语言被接纳的过程会有一些坎坷。面向过程的MapReduce 阵营和面向声明语句的数据库阵营，已经开始逐渐意识到对方的优点，开始走向融合。随着分析变得越来越复杂，涉及的数据量越来越多，分析工作流及其结果的可再现性，就变得尤为重要。虽然起源和再现性通常和科学界相关，业界现在也开始认识到这些特性的重要型，这些特性很容易在数据库中进行处理。但是，同时我们也要注意到，完美的再现性需要高昂的代价，甚至是不可能做到的，因此，有选择性地放松一致性保证也是很重要的。 SciDB 。最初的XLDB 活动达成了一个共识，那就是建设一个开放的开源科学数据库SciDB。到目前为止，SciDB 创建者已经确定了最初的合作伙伴，组建了一个数据库研究智囊团，收集了详细的用户用例，完成了最初的设计，募集了经费，建立了一个非盈利的机构，并且开始招募工作人员。SciDB 的设计，采用了层次结构的、多维数组数据模型，具备相关的数组操作，这些操作和关系数