- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据分析2
大数据分析
首席工程师揭秘:LinkedIn 大数据后台是如何运作的 作者: Jay Kreps 来源: CSDN 发布时间: 2015-04-10 18:51 阅读: 6385 次 推荐: 9 原文链接 [收
藏] 摘要:Jay Kreps是来自
LinkedIn 的首席工程师,他表示日志几乎在计算机产生的时候就存在,除了可用在分布式计算或者抽象分布式计算模型内部之外,还有广泛的用途。本文中他讲述的日志的原理和通过把日志用做单独服务来实现数据集成、实时数据处理以及分布式系统设计。文章内容非常干货,值得学习。
英文原文:The Log: What every software engineer should know about real-time datas unifying abstraction
我在六年前的一个令人兴奋的时刻加入到LinkedIn 公司。从那个时候开始我们就破解单一的、集中式数据库的限制,并且启动到特殊的分布式系统套件的转换。这是一件令人兴奋的事情:我们构建、部署,而且直到今天仍然在运行的分布式图形数据库、分布式搜索后端、Hadoop 安装以及第一代和第二代键值数据存储。
从这一切里我们体会到的最有益的事情是我们构建的许多东西的核心里都包含一个简单的理念:日志。有时候也称作预先写入日志或者提交日志或者事务日志,日志几乎在计算机产生的时候就存在,同时它还是许多分布式数据系统和实时应用结构的核心。 不懂得日志,你就不可能完全懂得数据库,NoSQL 存储,键值存储,复制,
paxos,Hadoop, 版本控制以及几乎所有的软件系统;然而大多数软件工程师对它们不是很熟悉。我愿意改变这种现状。在这篇博客文章里,我将带你浏览你必须了解的有关日志的所有的东西,包括日志是什么,如何在数据集成、实时处理和系统构建中使用日志等。 第一部分:日志是什么?
日志是一种简单的不能再简单的存储抽象。它是一个只能增加的,完全按照时间排序的一系列记录。日志看起来如下:
我们可以给日志的末尾添加记录,并且可以从左到右读取日志记录。每一条记录都指定了一个唯一的有一定顺序的日志记录编号。
日志记录的排序是由―时间‖来确定的,这是因为位于左边的日志记录比位于右边的要早些。日志记录编号可以看作是这条日志 记录的―时间戳‖。在一开始就把这种排序说成是按时间排序显得有点多余 ,不过 ,与任何一个具体的物理时钟相比,时间 属性是非常便于使用的属性。在我们运行多个分布式系统的时候,这个属性就显得非常重要。
对于这篇讨论的目标而言,日志记录的内容和格式不怎么重要。另外提醒一下,在完全耗尽存储空间的情况下,我们不可能 再给日志添加记录。稍后我们将会提到这个问题。 日志并不是完全不同于文件或者数据表的。文件是由一系列字节组成,表是由一系列记录组成,而日志实际上只是按照时间顺序存储记录的 一种数据表或者文件。
此时,你可能奇怪为什么要讨论这么简单的事情呢? 不同环境下的一个只可增加的有一定顺序的日志记录是怎样与数据系统关联起来的呢?答案是日志有其特定的应用目标:它记录了什么时间发生了什么事情。 而对分布式数据系统许多方面而言, 这才是问题的真正核心。
不过,在我们进行更加深入的讨论之前,让我先澄清有些让人混淆的概念。每个编程人员都熟悉另一种日志记录-应用使用syslog 或者log4j 可能写入到本地文件里的没有结构的错误信息或者追踪信息。为了区分开来,我们把这种情形的日志记录称为―应用日志记录‖。应用日志记录是我在这儿所说的日志的一种低级的变种。最大的区别是:文本日志意味着主要用来方便人们阅读,而我所说明的―日志‖或者―数据日志‖的建立是方便程序访问。 (实际上,如果你对它进行深入的思考,那么人们读取某个机器上的日志这种理念有些不顺应时代潮流。当涉及到许多服务和服务器的时候,这种方法很快就变成一个难于管理的方式,而且为了认识多个机器的行为,日志的目标很快就变成查询和图形化这些行为
的输入了-对多个机器的某些行为而言,文件里的英文形式的文本同这儿所描述的这种结构化的日志相比几乎就不适合了。)
数据库日志
我不知道日志概念起源于何处-可能它就像二进制搜索一样:发明者认为它太简单而不能当作一项发明。它早在IBM 的系统R 出现时候就出现了。数据库里的用法是在崩溃的时候用它来同步各种数据结构和索引。为了保证操作的原子性和持久性,在对数据库维护的所有各种数据结构做更改之前,数据库把即将修改的信息誊写到日志里。日志记录了发生了什么,而且其中的每个表或者索引都是一些数据结构或者索引的历史映射。由于日志是即刻永久化的,可以把它当作崩溃发生时用来恢复其他所有永久性结构的可信赖数据源。
您可能关注的文档
- 单片机实训报告12.doc
- 单片机实训报告13.doc
- 单片机实训报告3.doc
- 单片机实训报告4.doc
- 单片机实训报告7.doc
- 单片机实训报告5.doc
- 单片机实训报告8.doc
- 单片机简答题13.doc
- 单片机简答题11.doc
- 单片机简答题7.doc
- 人教版七年级生物学下册课件《第四单元 综合实践项目 设计并制作人体结构模型》.pptx
- 统编版七年级历史下册课件《第8课 北宋的政治》.pptx
- 参数优化用于视觉引导陆地运动:多帧图像分析与仿真.pdf
- 江苏省2025九年级物理上册第十三章简单电路第二节电路连接的基本方式第2课时实物图和电路图课件新版苏科版.pptx
- 山西省2025九年级物理上册第十七章欧姆定律第3节电阻的测量课件新版新人教版.pptx
- 江苏省2025九年级物理上册第十三章简单电路第二节电路连接的基本方式第3课时电路识别课堂巩固课件新版苏科版.pptx
- 初中物理八年级(人教版)提升讲义:第14讲 望远镜和显微镜(预习)(原卷版) .pdf
- 山西省2025九年级物理上册第十四章内能的利用第3节热机的效率课件新版新人教版.pptx
- 山西省2025九年级物理上册第十七章欧姆定律第2节欧姆定律课件新版新人教版.pptx
- 山西省2025九年级物理上册第十六章电压电阻专题10.串并联电路的电流电压规律的应用课件新版新人教版.pptx
最近下载
- 2025年广西声乐艺考题目及答案.doc VIP
- T-ZJASE024-2024呼吸阀定期校验规则.pptx VIP
- State Grid Green Energy 全国公共机构节约能源资源综合信息平台(管理机构版) 用户手册.pdf
- 欠款车辆抵押协议书.docx VIP
- 一种PMI泡沫材料及其制备方法和应用.pdf VIP
- 2025年中小学教师职业心理健康测试题.docx VIP
- 半小时漫画中国史分享----好书推荐精品课件.pptx VIP
- T∕CAAMTB 28-2021 旅居车辆标志和安全要求.pdf
- T_CPQS A0053-2025 乘用车转向灵巧性测试方法.docx VIP
- 六年级有关解方程的应用题专项练习.docx VIP
原创力文档


文档评论(0)