互联网巨头的云计算发展史,已被撰写千遍。
但正史的开场,总会被人为修饰,精彩有余,却只保留了全盘上的合理,未展露其局部的不合情之处。
云的诞生,自然也不全是官方语境中的“业务增长,倒逼技术升级”而来。
毕竟决策因人而起,而人不可能永远理性。
真正起到决定性作用的那一刻,拍板的那一瞬间,需要企业决策者们足够头脑发热,带着感性、冲动和不合理,签署下这几笔改变公司战略发展方向的文字。
而云计算的前传,正是由这份感性背后,或是跌宕起伏、或是无心插柳、亦或是不可理喻的故事组成。
网卡冒烟的淘宝与阿里云
谈云计算历史,多半从阿里讲起。人们所熟知的是,2006~2009年之间,亚马逊的AWS初长成,马云与曾鸣的云计算论道,王坚的加盟,阿里云登上历史舞台。
但做云计算这一步棋,并不全是阿里的主动为之、提前规划。
时间回到2006-2008年初,立项不久的淘宝商城(天猫前身),在公司内部还处于一种“放养模式”——没资源、没人管,员工们只觉得本部门不太受待见,根本想象不到自己2008年要经历怎样的“地狱模式”。
其实在2007年,淘宝业务便突然开始爆发,到了2008年已经是核爆级别的增长,旧的IT体系已经被逼到崩溃边缘。据说当时早上八点到九点半之间,时常会出现服务器的处理器使用率,飙升到 98%的情况,离爆棚就差两个百分点。
这个时间段“浑身是伤”的淘宝,让一批顶尖技术人才迅速成长起来,例如阿里程序员大牛林昊(毕玄)等人。
多位同时期的淘宝商城技术元老,向雷峰网(公众号:雷峰网)生动地描绘了当年那些“惨烈”的画面:
“淘宝在当时是颇为先锋的业务形态,市面上的技术组件,性能和容量都配不上淘宝。最恐怖的时候是大促,流量洪峰一来,机房里的机器全体宕掉,千兆的网卡‘啪’一下就冒烟。立马换上一批新网卡,‘啪’一下,又冒烟阵亡了。”
为什么当时的淘宝这么“脆”?在旧的架构里,一切逻辑和流程都非常简单:业务需求一来就做个系统支撑上线,从没考虑过什么架构、平台、冗余。到了新架构出现,平台整体才得以显现,后来广为人知的中台概念也才在这一阶段慢慢沉淀下来。新一代体系直到2013年才真正稳定下来,一路“修修补补”沿用至今。
淘宝是发展最快、问题最多的一个,但出问题的不止淘宝一个,承担交易结算功能的支付宝、阿里内部的财务系统也连带着一块“遭殃”。“早期这里头的账,就没平过几次”,一位前淘宝员工回忆道。
加上当时也处在淘宝技术架构体系2.0向3.0演进的阶段,可以说,整个阿里的技术层面都巨大承压,堪称阿里诞生以来最大的一场技术“生死劫”。
“每天从睁眼到闭眼,就是不停地修改,不停地救火。工作刚梳理清楚头绪,情况又变了,一切得从头再梳理一遍。凌晨一两点下班是常态,感觉把一辈子的班都加完了。”该技术元老直言,这是他职业生涯最有成就感同时也最痛苦的一段回忆,项目做到一半,不少同事的情绪已经快要抑郁了,感觉像是在过一条摇摇欲坠的桥,每天背的货物还越来越重。
毫不夸张地说,这轮“劫数”的出现,才是阿里入局云计算的真正开始。
此后,便是轰轰烈烈的阿里“去IOE”进程,云计算系统“飞天”雏形诞生,“云梯计划”聚集团上下之力顺利实现,一系列励志故事在阿里云上演。
巨头的云计算前传:躲在正史身后的「跌宕起伏」和「不可理喻」
王坚
2009年,阿里云顺利度过了大版本升级,飞天系统稳定性表现尚可,但在2010~2012年间,阿里云陷入了停滞,整个部门连续三年在集团内部拿最低分。最广为人知的一幕是,王坚泪洒年会现场,说:“这两年我挨的骂甚至比我一辈子挨的骂还多。但是,我不后悔。”
这一表象之下,是稚嫩的阿里云在产品化和商业化上的隐忧。
很多人都认同,阿里云有一群技术“疯子”,这其实不只意味着他们在技术上有着极高的热情和造诣,同时也意味着,他们可能不太精通技术之外的事情。
一位与王坚打过交道的天猫前技术专家点评,那个时候的阿里云并非技术能力不行,而是产品化和商业化甚至可以用一塌糊涂四个字来形容,少了一条和业务部门“共情”的脑筋。
这群P9、P10级别的云技术专家们,会随时打磨自己的系统。从纯技术角度来说,精益求精,有问题就早发现早解决,这总是没错的——但对业务部门来说,这种没有事先打过招呼的“随时打磨”,简直是灾难级别的。
“比如他们会突然上机房,改动两个参数看看效果,但商家那边直接就崩溃两个小时,这已经达到了P0级别事故的标准。如果是在管理严格的部门里,早就剥夺股权、让专家们收拾包袱回家了。”这位专家哭笑不得地说。
进一步对标AWS就会发现,阿里云的产品,从细节到应用再到商业合作漏洞不少,从管理流程上就显得颇为粗糙,后来阿里云花了一两年的时间与其他部门共同打磨修改,才形成了今天的产品化水平。
2012年“聚石塔”的上线应用,就是一次典型的阿里云与业务部门携手共进的成长经历,某种程度上也可视作阿里云迈向成熟、迈向商业化的里程碑。
早期,大中型商家拥有自己的业务流程模式与IT系统,因此不愿寄人篱下按照淘宝的后台要求来做商品销售和管理。这个时候淘宝需要做一个面向大B端的平台,把大中型商家接进来,形成协同关系。
但这一平台的首个版本,并不受商家们的认可,被评价为“很技术化,但不懂商业”。
为了抓准商家的痛点,据说团队把当时杭州的所有腰部以上规模的商家,全部拜访了一遍。在这个过程中,商家真正的需求才浮出水面:业务发展很快,但IT水平跟不上。
于是,无心插柳下,这一套为商家IT系统和数据做云托管服务的平台就此诞生,也就是后来的“聚石塔”。
简单来说,商家只要集中精力做业务,不必耗时处理IT问题,大流量时的IT资源和系统稳定性、订单履行速度等一系列问题,由聚石塔兜底处理。
过程中需要不少云端资源,淘宝商城顺理成章地将阿里云拉进这一项目中。
“如果当时没有淘宝商城/天猫的帮忙打磨、场景落地,阿里云不一定有今时今日的地位。”一位前阿里老员工如是说。
据统计,2012年的双十一,就有近七成的天猫订单顺利用上聚石塔。这是一个在集团内部评价颇高的项目,为阿里解决了不少老问题,像是此前很难拿到的各行业供应链数据,终于可以沉淀在聚石塔上。这样一个项目,后来也由王坚接手,阿里云的成长表现可见一斑。
在陆续渡过技术和业务的“生死劫”之后,阿里云在王坚的带领,以及淘宝的助攻下,逐渐稳步踏上正轨,成为中国云计算的排头兵。