赞誉
我们都知道Google公司的分布式系统设计和实现在业界遥遥领先,这些分布式系统多年前就已经运行在百万台服务器上,很多公司也都在觊觎这么多服务器是如何运行和管理的。本书揭开了这层神秘的面纱,SRE就是运行和管理这百万台服务器和众多分布式系统的关键。
多年前,Google是通过发布技术论文帮助业界解决分布式难题的,如今各种分布式系统百花齐放,如何管理这些系统对传统的运维技术和理念产生了极大的挑战,现在Google给我们带来了技术指导和最佳实践。该书汇集了Google多年生产环境的管理经验,连编写工作都采用了分布式实现的方法,由各个领域的资深专家联合创作而成。可以把本书看作是一座灯塔,很多公司的集群规模还远达不到Google的规模,但是参照本书中的技术指导和最佳实践,不仅可以加速传统运维向SRE的进化,更重要的是可以帮助公司高效地运维和管理各种复杂的分布式系统。
——吕宏利,Google Ads SRE
信息技术领域是英文缩写词的高产领域,几乎所有的新概念、新技术和新产品的推出甚至一场市场营销的策划都会伴随着新的英文缩写词的出现。SRE这个缩写,在公司内部不仅代表了一个全新的运维理念和其伴随的崭新的工程领域、一套完整的系统运维体系和其对应的最佳实践,而且也是我和我的好朋友——本书的译者孙宇聪一起工作了数年的战斗集体。而本书的作者们也都是这个大集体中的师长和伙伴。
系统运维长久以来都依赖实践积累之上的口口相传,经验通常是领域从业者手里掌握的秘诀。本书从实践出发,汇集了众多业内顶尖的系统运维人员的实战心得,理论基础和实操指导并重,系统化地阐述了在新一代信息系统架构(大规模、分布式、高并发、多业务、多租户)下系统运维的理念(当前被广泛接受并被大量实践的DevOps就起源于此)、思路、最佳实践以及对应的组织架构和人员管理的方方面面,是系统运维领域从业人员不可多得的参考和学习资料。本书是对新时代系统运维领域实践的总结和理论升华。
本书的译者孙宇聪在生活中是一个略显粗犷的大男人,但对于本书的翻译,他充分发挥了自己在这个领域中多年的从业经验和对系统运维的深刻理解,细致入微地做到内容和语言两个方面的精准和优美,这在翻译的技术图书中是非常难得的。
——张矩,锋瑞资本执行董事,前 Google SRE
很高兴受译者孙宇聪邀请为该书写推荐序,这本书是Google的SRE部门多年实践的总结,孙宇聪本人也在Google SRE部门工作多年。SRE部门在Google真正落实了DevOps。SRE工程师在Google不只是维护各种线上服务的稳定性,还要负责保证各项服务的性能,同时负责管理维护数据中心。美国多家互联网公司都在依照Google的方式来组织和运作SRE部门,可以说SRE被Google发扬光大,Google的SRE实践正在成为DevOps的标准。
SRE和传统的IT运维有很大区别,SRE真正实现了DevOps:首先,SRE深度参与开发阶段的工作,对应用程序的设计实现方式、依赖库、运行时的资源消耗都有严格的规约;其次,SRE工程师本身也要做不少编程工作,来实现各种工具用以自动解决问题和故障,换句话说,SRE强调的是对问题和故障的自动处理,而非人工干预;再者,按照SRE的约定,开发人员自行负责程序上线部署更新,毕竟开发人员对自己开发的程序更熟悉,易于处理程序上线过程中遇到的问题。总之,作为Google的DevOps实践,SRE非常注重开发和运维职能的结合,极大地加快了业务应用迭代周期,提升了IT对业务的支撑能力。
随着DevOps在国内的宣传推广,国内的很多企业客户也逐渐接受了DevOps的理念,但是在具体落地实践DevOps的过程中缺乏实际案例作为参照。本书的推出,方便了国内广大IT人员在落地DevOps过程中参照Google的SRE实践。非常感谢孙宇聪把这么好的一本书翻译成中文。
——王璞,数人云创始人
Google首创了SRE这个职业,并将其SRE思想体系和方法论贡献出来汇集成此书。中文版的及时出版,使得国内广大运维从业者可以更高效地赏阅并实践。很荣幸此书在GOPS全球运维大会首发,高效运维社区将继续作为Google SRE国内第一传播平台,推进其和《互联网应用运维框架及能力模型》(本书译者孙宇聪先生联合撰写)的融合,促进其在中国运维行业的落地生根、蓬勃发展。
——萧田国,高效运维社区发起人,开放运维联盟联合主席
从接触Google SRE的概念开始,就感受到它神秘地存在,直到看到英文版的SRE书籍,才知道它对传统运维的颠覆性。本书的面世,让国内更多的运维人员接触到Google先进的运维理论与实践。个人坚信这种理论和实践的提升与改变,才是运维人的出路,运维的业务价值、行业价值便也随之而来。运维也可以“高大上”地存在!
——王津银,“精益运维”发起人;优维科技创始人;开放运维联盟发起人之一;开放运维联盟应用标准规范组组长、起草人
大型互联网应用的部署规模从几千台到几十万台不一,随着软件系统的复杂度提升也呈现出越来越庞大的趋势,如何通过少数人力管理好庞大复杂的应用环境?如何在环境极度复杂的情况下确保软件的服务质量?如何在确保质量的情况下优化软件迭代速度?很多问题困扰着项目管理者、产品经理、软件工程师、运维人员。本书从Google所面临的问题、价值观、解决方案、体系建设、最佳实践等方面理论结合实际,非常具备指导意义,每一个希望提高工作效率、改进工作成果的技术和管理人员都应该认真阅读理解,结合自身工作环境进行实践,找出一条适合自己的持续发展之路。
——莫显峰,Ucloud联合创始人,CTO
Google丰富的产品与服务已成为全球多数网民每天生活的一部分,而支撑这许多应用的是其背后庞大的基础设施。为了更有效地保证用户体验,Google建立了独树一帜的运维体系并称之为SRE(Site Reliability Engineering)。绝大部分传统IT公司会雇佣系统管理员(sysadmin)来运维复杂的计算机系统,但由于大部分工作依靠手工操作,所以随着用户增长,Sysadmin的团队也必须相应地增长。Google SRE团队的精华在于研发软件系统,将运维自动化以替代传统模型中的人工操作。这本书详细地描述了Google SRE的原则与理念,并列举了实际案例来说明如何灵活运用这些准则。
孙宇聪在Google任职八年。他不仅精通基础设施的各个方面,还热衷于钻研平台架构。他致力于为中文读者解析Google运维的窍门,于是在繁忙的工作之余,翻译了这本由他的原同事们撰写的书。由于Google的规模很大,许多人可能认为Google的做法无法效仿,但书中描述的原则与道理是可以触类旁通的。书中提及许多实用的道理,比如,100%的可用性是不现实的,需要达到这个目标的成本通常远超于所能获得的价值,所以Google会针对每种产品设定一个错误预算(容错率),既能保证用户体验又不影响创新和部署的速度。
我希望读者像我一样,通过阅读这本书,能学习到如何更有效地运维自己的产品与平台。
——Joe Zhu,Zenlayer创始人
Google SRE 团队通过写作本书为整个运维行业做出了巨大的贡献。通过本书,他们将指导思想、最佳实践和常见的应用架构模式以及团队建设模式共享出来,揭示了 Google如何能够持续不断地建设、部署世界级的工程项目,同时保持世界一流的可靠性标准。每个感兴趣的人都应该通读本书,切身尝试书里提到的一些想法。
Jez Humble,Continuous Delivery和Lean Enterprise书籍的共同作者
我还记得 Google 第一次在运维技术论坛上发表的演讲。感觉就像听了一场野生动物专家针对两栖爬行动物的专题介绍。演讲非常有意思,但是由于演讲的内容和观众的日常工作感觉距离太遥远,因此演讲的效果并不好。
随着IT行业的不断改变,中小型企业的运维实践逐渐和 Google 接轨。突然之间,Google 多年打磨、积累形成的运维实践变成了最热门的行业焦点。对于一个面临日益严峻的可靠性、可扩展性、可维护性挑战的行业,这本书真是太及时了!
——David N.Blank-Edelman,总监,USENIX董事会成员,以及 SREcon 大会的共同创始人
自从我离开 Google 这座充满魔力的城堡,我就一直在等这本书面世,我一直在用书中的思想理念给同事们布道。
——Björn Rabenstein,SoundCloud 生产工程团队负责人,Prometheus(开源项目)开发者,前 Google SRE(2013)
Google 是SRE理念的发明者。本书不光介绍了这个职位的技术细节,还包括了其中的思考过程、团队目标、设计理念以及学到的宝贵课程。如果你想从起源上了解SRE一词的意义,应该从本书开始。
——Russ Allbery,Google SRE,安全工程师
本书的作者们和大家分享了Google SRE团队的成长经历,包括其中走过的弯路。Google 凭借这些实践经验,将Google服务部署到全世界,同时保持世界一流的可靠性。我高度建议任何一个想要创建、扩展大规模集成系统的人阅读本书。这本书针对如何构造一个可长期维护的系统提供了非常宝贵的实践经验。
——Rik Farrow,USENIX成员
开发一个 Gmail 这样的大型分布式系统已经很难了。如何运营维护这样的一套系统,在保障每天不断更新的同时保障一流的可靠性就更难了。这本书就像一套完备的菜谱,收集了Google在实践过程中积累的宝贵经验。希望通过阅读本书,读者能够绕开一些Google曾经走过的弯路。
——Urs Hölzle,Google 基础架构组资深副总裁