- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2届超大数据库会议(XLDB2008)大会报告(中文版)
第2 届超大数据库会议(XLDB2008 )大会报告(中文版)
第2 届超大数据库会议(XLDB2008 )
大会报告(中文版)
REPORT FROM THE 2nd WORKSHOP ON EXTREMELY LARGE DATABASES
Jacek Becla*1 and Kian-Tat Lim2
SLAC National Accelerator Laboratory, Menlo Park, CA 94025, USA
*1 Email: becla@
2 Email: ktl@
温馨提示:本文由厦门大学计算机系林子雨老师翻译自XLDB 会议网站的英文报告,转载请
注明出处,仅用于学习交流,请勿用于商业用途。
[本文翻译的原始出处:厦门大学计算机系数据库实验室网站林子雨老师的超大数据库技术
资料专区/XLDB]
翻译者林子雨个人主页:/linziyu
【摘要】在科学界和业界,大规模分析的复杂性已经在近些年有了很大的提升。分析人员正
在努力尝试使用复杂的技术,比如时间序列分析和分类算法,因为他们平时所熟悉的工具,
虽然功能强大,但是可扩展性较差,无法有效使用可扩展的数据库系统。第2 届XLDB 大
会,主要目的在于了解这些存在的问题,剖析这些问题的背后原因,并寻找相应的解决方案。
大会还讨论了建设一个新的开源科学数据库 SciDB,这个构想是在第 1 届 XLDB 大会
(XLDB2007 )上提出来的。本文是本次大会活动和讨论的总结报告。
【关键词】分析;数据库;千兆级;亿亿次级;大型数据库;超大数据库;
1 大会总结
第2 届XLDB 大会,主要关注大规模复杂分析。与会代表包括数据密集型的科学和产
业应用领域、数据库研究群体和数据库厂商。
复杂分析。大会讨论了许多复杂分析任务的实例。产业应用通常集中在寻找和发现客户
行为模式。这些产业分析所采用的工具,和科学家在执行发现模式和异常的分析时所使用的
工具一样,比如时间序列分析和分类。
数据集的大小正在急剧增加,增长率也在不断提高。当前一个最大的项目,每年都会新
增加数万PB 的数据。类似R 、MATLAB 和EXCEL 等工具无法跟上数据增长的步伐,这使
得分析人员不得不生成可以放入内存的样本数据,而不是使用所有数据。这些超大数据集的
结构和针对这些数据集的应用,已经变得越来越复杂,因此,XLDB 系统必须在数据表示、
处理和硬件方面,都能够保持灵活性。有一种可能的方法,虽然需要某种程度的文化改变,
但是可以最大化灵活性并同时降低代价,这种方法是,以服务的方式提供分析工具,即使用
一个中央 XLDB 来支持分散在各地的、具有不同分析需求的群体。必须避免管理成本随着
数据量的快速增加而增加,因此,需要一个在发生硬件故障时仍然能够正常运行的自适应系
统。
SQL 的面向集合的特性和行级别的ODBC/JDBC 接口,给使用数据库的人员造成了一
定的障碍。基于数组的数据模型,在直观上和科学界以及业界遇到的数据类型比较匹配。和
厦门大学计算机科学系教师林子雨翻译 /linziyu 第 1 页/共 12 页
第2 届超大数据库会议(XLDB2008 )大会报告(中文版)
分析工具的集成,以及和编程语言(比如 C++和 DLL )的集成,也会有一定的帮助。发明
一种能够直接表达分析人员意图的语言,也是可能的,尽管这个语言被接纳的过程会有一些
坎坷。面向过程的MapReduce 阵营和面向声明语句的数据库阵营,已经开始逐渐意识到对
方的优点,开始走向融合。
随着分析变得越来越复杂,涉及的数据量越来越多,分析工作流及其结果的可再现性,
就变得尤为重要。虽然起源和再现性通常和科学界相关,业界现在也开始认识到这些特性的
重要型,这些特性很容易在数据库中进行处理。但是,同时我们也要注意到,完美的再现性
需要高昂的代价,甚至是不可能做到的,因此,有选择性地放松一致性保证也是很重要的。
SciDB 。最初的XLDB 活动达成了一个共识,那就是建设一个开放的开源科学数据库SciDB。
到目前为止,SciDB 创建者已经确定了最初的合作伙伴,组建了一个数据库研究智囊团,收
集了详细的用户用例,完成了最初的设计,募集了经费,建立了一个非盈利的机构,并且开
始招募工作人员。SciDB 的设计,采用了层次结构的、多维数组数据模型,具备相关的数组
操作,这些操作和关系数
文档评论(0)