第2届超大数据库会议(XLDB2008)大会报告(中文版).pdfVIP

第2届超大数据库会议(XLDB2008)大会报告(中文版).pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2届超大数据库会议(XLDB2008)大会报告(中文版)

第2 届超大数据库会议(XLDB2008 )大会报告(中文版) 第2 届超大数据库会议(XLDB2008 ) 大会报告(中文版) REPORT FROM THE 2nd WORKSHOP ON EXTREMELY LARGE DATABASES Jacek Becla*1 and Kian-Tat Lim2 SLAC National Accelerator Laboratory, Menlo Park, CA 94025, USA *1 Email: becla@ 2 Email: ktl@ 温馨提示:本文由厦门大学计算机系林子雨老师翻译自XLDB 会议网站的英文报告,转载请 注明出处,仅用于学习交流,请勿用于商业用途。 [本文翻译的原始出处:厦门大学计算机系数据库实验室网站林子雨老师的超大数据库技术 资料专区/XLDB] 翻译者林子雨个人主页:/linziyu 【摘要】在科学界和业界,大规模分析的复杂性已经在近些年有了很大的提升。分析人员正 在努力尝试使用复杂的技术,比如时间序列分析和分类算法,因为他们平时所熟悉的工具, 虽然功能强大,但是可扩展性较差,无法有效使用可扩展的数据库系统。第2 届XLDB 大 会,主要目的在于了解这些存在的问题,剖析这些问题的背后原因,并寻找相应的解决方案。 大会还讨论了建设一个新的开源科学数据库 SciDB,这个构想是在第 1 届 XLDB 大会 (XLDB2007 )上提出来的。本文是本次大会活动和讨论的总结报告。 【关键词】分析;数据库;千兆级;亿亿次级;大型数据库;超大数据库; 1 大会总结 第2 届XLDB 大会,主要关注大规模复杂分析。与会代表包括数据密集型的科学和产 业应用领域、数据库研究群体和数据库厂商。 复杂分析。大会讨论了许多复杂分析任务的实例。产业应用通常集中在寻找和发现客户 行为模式。这些产业分析所采用的工具,和科学家在执行发现模式和异常的分析时所使用的 工具一样,比如时间序列分析和分类。 数据集的大小正在急剧增加,增长率也在不断提高。当前一个最大的项目,每年都会新 增加数万PB 的数据。类似R 、MATLAB 和EXCEL 等工具无法跟上数据增长的步伐,这使 得分析人员不得不生成可以放入内存的样本数据,而不是使用所有数据。这些超大数据集的 结构和针对这些数据集的应用,已经变得越来越复杂,因此,XLDB 系统必须在数据表示、 处理和硬件方面,都能够保持灵活性。有一种可能的方法,虽然需要某种程度的文化改变, 但是可以最大化灵活性并同时降低代价,这种方法是,以服务的方式提供分析工具,即使用 一个中央 XLDB 来支持分散在各地的、具有不同分析需求的群体。必须避免管理成本随着 数据量的快速增加而增加,因此,需要一个在发生硬件故障时仍然能够正常运行的自适应系 统。 SQL 的面向集合的特性和行级别的ODBC/JDBC 接口,给使用数据库的人员造成了一 定的障碍。基于数组的数据模型,在直观上和科学界以及业界遇到的数据类型比较匹配。和 厦门大学计算机科学系教师林子雨翻译 /linziyu 第 1 页/共 12 页 第2 届超大数据库会议(XLDB2008 )大会报告(中文版) 分析工具的集成,以及和编程语言(比如 C++和 DLL )的集成,也会有一定的帮助。发明 一种能够直接表达分析人员意图的语言,也是可能的,尽管这个语言被接纳的过程会有一些 坎坷。面向过程的MapReduce 阵营和面向声明语句的数据库阵营,已经开始逐渐意识到对 方的优点,开始走向融合。 随着分析变得越来越复杂,涉及的数据量越来越多,分析工作流及其结果的可再现性, 就变得尤为重要。虽然起源和再现性通常和科学界相关,业界现在也开始认识到这些特性的 重要型,这些特性很容易在数据库中进行处理。但是,同时我们也要注意到,完美的再现性 需要高昂的代价,甚至是不可能做到的,因此,有选择性地放松一致性保证也是很重要的。 SciDB 。最初的XLDB 活动达成了一个共识,那就是建设一个开放的开源科学数据库SciDB。 到目前为止,SciDB 创建者已经确定了最初的合作伙伴,组建了一个数据库研究智囊团,收 集了详细的用户用例,完成了最初的设计,募集了经费,建立了一个非盈利的机构,并且开 始招募工作人员。SciDB 的设计,采用了层次结构的、多维数组数据模型,具备相关的数组 操作,这些操作和关系数

文档评论(0)

ayangjiayu1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档