2013年“雙十一”,天貓成交額達(dá)350億,支付寶成交筆數(shù)1.88億,阿里巴巴再一次賺足眼球。
2012年起,阿里集團(tuán)閃電般地拆分成7家公司、25個(gè)分支機(jī)構(gòu),并在金融業(yè)肆意擴(kuò)張,在移動互聯(lián)網(wǎng)領(lǐng)域大舉收購……馬云構(gòu)建的阿里生態(tài)圈,正在從城邦成長為“帝國”。在這一系列高調(diào)動作的背后,實(shí)則與一位低調(diào)的人有關(guān),他就是王堅(jiān)。
2008年,王堅(jiān)加盟阿里巴巴成為集團(tuán)首席架構(gòu)師,即現(xiàn)在的首席技術(shù)官。這位前微軟亞洲研究院常務(wù)副院長被馬云定位為:將幫助阿里巴巴集團(tuán)建立世界級的技術(shù)團(tuán)隊(duì),并負(fù)責(zé)集團(tuán)技術(shù)架構(gòu)以及基礎(chǔ)技術(shù)平臺搭建。
阿里巴巴首席技術(shù)官王堅(jiān)
加入阿里后,帶著技術(shù)基因和學(xué)者風(fēng)范的王堅(jiān)就在阿里巴巴集團(tuán)提出了“去IOE”(在IT建設(shè)過程中,去除IBM小型機(jī)、Oracle數(shù)據(jù)庫及EMC存儲設(shè)備)的想法,并開始把云計(jì)算植入阿里的IT基因。阿里巴巴的“去IOE”運(yùn)動引發(fā)了大型企業(yè)IT底層建設(shè)的新思潮,也使IBM、Oracle等國外大型廠商倍感壓力。
隨著“去IOE”的實(shí)施,阿里IT發(fā)展策略逐漸從依賴“商業(yè)軟件”、到擁抱“開源軟件”最終演變?yōu)樽灾骷夹g(shù)和云計(jì)算服務(wù)能力,更為2009年“阿里云計(jì)算有限公司”的成立埋下伏筆。
2011年7月28日,阿里云自主研發(fā)的“飛天”云計(jì)算平臺開始以公共云服務(wù)的方式對外提供云計(jì)算服務(wù)。IT支撐起阿里集團(tuán)的業(yè)務(wù)閃變,并在淘寶、支付寶等核心業(yè)務(wù)之外,勾勒出了新的盈利模式――云服務(wù)。2013年8月15日,阿里巴巴“飛天”云計(jì)算平臺的單集群服務(wù)器規(guī)模達(dá)到了5000臺,這是中國互聯(lián)網(wǎng)公司首次公布單集群規(guī)模達(dá)到了5000臺。
新的IT格局支撐起阿里集團(tuán)“平臺、金融和數(shù)據(jù)”三大業(yè)務(wù)的發(fā)展;“阿里云”則成為阿里巴巴延伸向更多中小企業(yè)的重要觸角。帶著對阿里IT布局的探究,《商業(yè)價(jià)值》出版人劉湘明攜CIO提問與阿里巴巴首席技術(shù)官王堅(jiān)展開對話。
云計(jì)算是“去IOE”最好方法
阿里巴巴的成功經(jīng)驗(yàn)表明原來依賴IBM、Oracle和EMC的系統(tǒng)是可以構(gòu)建在Commodity PC上,這為大多數(shù)企業(yè)基于云計(jì)算平臺搭建IT系統(tǒng)掃清了障礙,讓他們可以徹底擁抱互聯(lián)網(wǎng)。
從2008年11月加盟阿里集團(tuán)開始,王堅(jiān)在集團(tuán)首席技術(shù)官和阿里云總裁角色之間不斷轉(zhuǎn)換。辦公室里整墻貼滿“云OS”效果圖,與團(tuán)隊(duì)在“鐘馗道-爭端解決室”開會到深夜已成常態(tài)。王堅(jiān)有著產(chǎn)品經(jīng)理敏感執(zhí)著的特質(zhì),他認(rèn)為:“‘去IOE’最好的解決方式是采用云計(jì)算,而不是買來一臺新的機(jī)器替代掉原有機(jī)器。”
“去IOE”的實(shí)施,使阿里IT發(fā)展策略逐漸從依賴“商業(yè)軟件”、到擁抱“開源軟件”最終演變?yōu)樽灾骷夹g(shù)和云計(jì)算服務(wù)能力。這一過程的本質(zhì)是分布化,讓隨處可以買到的Commodity PC架構(gòu)成為可能,這提供了云計(jì)算落地的首要條件。
Q 博士倫中國公司IT總監(jiān)汪華:為什么“IOE”對互聯(lián)網(wǎng)企業(yè)的發(fā)展是―個(gè)問題?“去IOE”和開源對IT團(tuán)隊(duì)的技術(shù)儲備有多高要求?
A 在互聯(lián)網(wǎng)時(shí)代,絕大部分企業(yè),包括互聯(lián)網(wǎng)企業(yè),對計(jì)算需求難以通過IOE提供的技術(shù)滿足,技術(shù)路徑上依賴于專用的硬件設(shè)備比較危險(xiǎn)。隨處可以買到的Commodity PC架構(gòu)對于阿里和大多數(shù)企業(yè)來說是最安全的,成本節(jié)約是“去IOE”最先顯效的部分。
理論上只要計(jì)算能力夠,“IOE”就一定能去掉!實(shí)際上“去IOE”這件事有技術(shù)挑戰(zhàn)和風(fēng)險(xiǎn),不是簡單改變軟硬件本身,它是“買計(jì)算”時(shí)代的產(chǎn)物,最好的解決方式是采用云計(jì)算,而不是買來一臺新的機(jī)器替代掉原有機(jī)器。開源技術(shù)只解決了軟件使用成本的問題,而忽略了開源軟件的升級和維護(hù)成本。
Q 寧波方太廚具有限公司CIO邴:是否有一天企業(yè)都采用開源,而且沒有軟件供應(yīng)商只有服務(wù)供應(yīng)商時(shí),IT建設(shè)的一些困難才能夠解決?
A 阿里最早依賴商業(yè)軟件,從擁有20多個(gè)節(jié)點(diǎn)的Oracle RAC數(shù)據(jù)庫集群(當(dāng)時(shí)是亞洲最大),到成為開發(fā)使用開源軟件MySQL最好的企業(yè)之一,到研發(fā)自己的關(guān)系數(shù)據(jù)庫OceanBase用于不同的業(yè)務(wù)場景。這樣的演變路徑也表明:商業(yè)軟件、開源軟件跟自有技術(shù)永遠(yuǎn)是搭檔,對于不同企業(yè)來說只是百分比的問題。對大的互聯(lián)網(wǎng)企業(yè)來說自有技術(shù)變得非常重要,未來“云計(jì)算平臺+自有技術(shù)+開源技術(shù)”會變得越來越重要。
Q 中國南方航空公司技術(shù)總監(jiān)龍庚:阿里云、天貓和淘寶的技術(shù)體系是怎樣的?在“去IOE”過程中,他們是如何協(xié)同?阿里下一步發(fā)展對技術(shù)會提出什么樣的要求?
A 支付寶、天貓和淘寶,阿里云的實(shí)際技術(shù)應(yīng)用確實(shí)有所不同,但阿里巴巴整個(gè)技術(shù)體系是協(xié)同在一起的。阿里整體技術(shù)的協(xié)同效率可以用幾個(gè)關(guān)鍵的事例來說明:第一是在“去IOE”過程中逐漸建立起對技術(shù)方向的認(rèn)同和協(xié)作,淘寶的業(yè)務(wù)拓展如果沒有技術(shù)、產(chǎn)品和業(yè)務(wù)等各團(tuán)隊(duì)的相互協(xié)同,是一件不可能的事;第二是在2011年,阿里集團(tuán)所有的技術(shù)后臺運(yùn)維和運(yùn)營部門都集中在首席技術(shù)官下面,成立統(tǒng)一的技術(shù)保障部,從工具到理念都在融合,這適應(yīng)了集團(tuán)業(yè)務(wù)的快速發(fā)展和變化,并成功駕馭了大型互聯(lián)網(wǎng)企業(yè)的技術(shù)挑戰(zhàn);第三則是業(yè)務(wù)驅(qū)動的技術(shù)協(xié)同,淘寶“聚石塔”、支付寶“聚寶盆”等業(yè)務(wù),都是在業(yè)務(wù)驅(qū)使下運(yùn)行在阿里云“飛天”平臺上,它是一種自然協(xié)同的結(jié)果。
今天我們看到的互聯(lián)網(wǎng)只是冰山一角,等到量子計(jì)算出來以前,我們在相當(dāng)長的時(shí)間里要受現(xiàn)在計(jì)算框架的局限,云計(jì)算也是階段性的產(chǎn)物,未來如果沒有像量子互聯(lián)網(wǎng)公司的發(fā)展也是會有很大的瓶頸。從這個(gè)角度講,互聯(lián)網(wǎng)經(jīng)濟(jì)對計(jì)算的依賴就像傳統(tǒng)的工業(yè)對石油跟煤的依賴一樣。量子計(jì)算不突破,互聯(lián)網(wǎng)經(jīng)濟(jì)會有很大障礙,這是我們一定會面對的事情。
阿里巴巴如何“去IOE”
“去IOE”最好的解決方式是采用云計(jì)算,而不是買來一臺新的機(jī)器替代掉原有機(jī)器。
2013年5月17日,阿里集團(tuán)最后一臺IBM小機(jī)在支付寶下線。這是自2009年“去IOE”戰(zhàn)略透露以來里程碑式的一個(gè)節(jié)點(diǎn),阿里集團(tuán)只剩下部分Oracle數(shù)據(jù)庫和EMC存儲。7月10日,淘寶廣告系統(tǒng)使用的Oracle數(shù)據(jù)庫下線,淘寶徹底告別Oracle數(shù)據(jù)庫。
作為整個(gè)集團(tuán)的首席技術(shù)官,王堅(jiān)負(fù)責(zé)每年集團(tuán)IT預(yù)算和規(guī)劃,他意識到對于傳統(tǒng)IT廠商的依賴使得相關(guān)技術(shù)及其維護(hù)已不在阿里自己管理的范圍之內(nèi),例如,大存儲對客戶而言基本就是“黑盒子”,客戶都不能自行進(jìn)行重要的維護(hù),“去IOE”解決了影響淘寶和支付寶長遠(yuǎn)發(fā)展的問題。
在阿里巴巴“去IOE”成功的大背景下,王堅(jiān)的觀點(diǎn)是:“去IOE”不是簡單改變軟件和硬件本身,而是用新的互聯(lián)網(wǎng)技術(shù)和架構(gòu)取代傳統(tǒng)的IT技術(shù)和架構(gòu)。
王堅(jiān)認(rèn)為阿里“去IOE”的成功原因有三:一是企業(yè)的戰(zhàn)略決心足夠強(qiáng)大;二是能夠堅(jiān)持到底,并愿意承擔(dān)技術(shù)上、組織上的各種風(fēng)險(xiǎn);三是要有使命感的人和團(tuán)隊(duì)去完成一件看起來不可能的事。
Q 阿里巴巴為什么要做“去IOE”這件事?“去IOE”經(jīng)歷了怎樣的過程?
A 2008~2009年,我在做整個(gè)集團(tuán)的預(yù)算時(shí),第一次提出了“去IOE”這件事。我負(fù)責(zé)整個(gè)集團(tuán)技術(shù)預(yù)算擬定,當(dāng)看到阿里巴巴對計(jì)算需求成指數(shù)級增長,并跟業(yè)務(wù)增長不成比例時(shí),就意識到如果沒有技術(shù)的進(jìn)步,一定會影響到公司長遠(yuǎn)的發(fā)展。
做預(yù)算不僅僅是“錢”的問題,而是考慮集團(tuán)未來如何發(fā)展的問題,也是思考技術(shù)戰(zhàn)略的機(jī)會。“去IOE”不是一個(gè)人的決定,你需要分析企業(yè)業(yè)務(wù)情況,哪些業(yè)務(wù)適合嘗試“去IOE”。阿里比較幸運(yùn),當(dāng)時(shí)淘寶的技術(shù)團(tuán)隊(duì)愿意創(chuàng)新,愿意去嘗試“去IOE”這件事,并最早承擔(dān)這件事的技術(shù)和業(yè)務(wù)風(fēng)險(xiǎn)。“去IOE”的過程也是技術(shù)發(fā)展的過程,比如以淘寶為基礎(chǔ)形成了優(yōu)秀的Mysql數(shù)據(jù)庫團(tuán)隊(duì),也建立了自己開發(fā)數(shù)據(jù)庫Oceanbase的團(tuán)隊(duì)?,F(xiàn)在的團(tuán)隊(duì)來自各事業(yè)部,雙管齊下,這是一個(gè)極大的長期投入,不磨五年是磨不出來的。當(dāng)支付寶最后一臺IBM小機(jī)下線時(shí),整個(gè)技術(shù)團(tuán)隊(duì)非常自豪。
當(dāng)時(shí)我們考慮“去IOE”并不僅僅出于對成本的考量,最重要的是要滿足企業(yè)未來長期發(fā)展的需要,傳統(tǒng)IT架構(gòu)的軟硬件已經(jīng)無法滿足企業(yè)擁抱互聯(lián)網(wǎng)方面的發(fā)展。阿里巴巴的成功經(jīng)驗(yàn)表明原來依賴IBM、Oracle和EMC的系統(tǒng)是可以構(gòu)建在Commodity PC上的,這為大多數(shù)企業(yè)基于云計(jì)算平臺搭建IT系統(tǒng)掃清了障礙,讓他們可以徹底擁抱互聯(lián)網(wǎng)。
這一過程最痛苦的是要傷害天天跟你在一起工作的人,你身邊的同事可能學(xué)的就是這個(gè)技能,突然告訴他你的技能沒有用了,這是非常痛苦的事情。云計(jì)算讓我們跨越了技術(shù)上的一些門檻,但是我想可能很多公司會過不了我前面說的坎。
Q 傳統(tǒng)企業(yè)“去IOE”的可能性有多大?哪些企業(yè)具備“去IOE”的條件和動力?
A 如果對云計(jì)算帶來的沖擊認(rèn)識足夠,就會明白“去IOE”不是一次技術(shù)升級。云計(jì)算對傳統(tǒng)IT和開源軟件都是有沖擊的,這是時(shí)代的變化,而不是一個(gè)技術(shù)策略的選擇。
從硬件和軟件底層著手“去IOE”,這件事情不該每個(gè)企業(yè)都做。如果要說一個(gè)很直截了當(dāng)?shù)拇鸢?,我會表明一個(gè)觀點(diǎn):如果企業(yè)覺得已有的云計(jì)算服務(wù)不能滿足IT需求,那么它適合自己完成“去IOE”,我認(rèn)為大部分傳統(tǒng)企業(yè)都是沒有可能和必要自己實(shí)現(xiàn)“去IOE”。
“去IOE”既有技術(shù)挑戰(zhàn),也受市場條件的約束,有機(jī)會成本問題,也受人才資源的限制。所以幫助大多數(shù)傳統(tǒng)企業(yè)解決“去IOE”的最好途徑是云計(jì)算,對企業(yè)來講這是一個(gè)好的可以長期發(fā)展的路徑。
對傳統(tǒng)企業(yè)來講,“去IOE”是在做一個(gè)選擇,是在選擇是否信任云計(jì)算是一種公共服務(wù),就像企業(yè)信任國家電網(wǎng)供電一樣。“IOE”本身是軟件時(shí)代或者說買計(jì)算機(jī)時(shí)代留下的產(chǎn)物,而到了云計(jì)算時(shí)代,實(shí)際上變成一個(gè)買“計(jì)算”的時(shí)代,不是買“計(jì)算機(jī)”的時(shí)代,所以IOE應(yīng)該用服務(wù)的方式去掉。這個(gè)過程中的挑戰(zhàn)是,你心里是否接受云計(jì)算,而不只是技術(shù)上接受。
Q 您怎樣看待“去IOE”的人才培養(yǎng)過程?
A 阿里巴巴的技術(shù)積累超出很多人的想象。我們真的有很多很好的人才,他們不僅熟悉業(yè)務(wù),對技術(shù)的理解也不是一般人可比,更重要的是他愿意“革自己的命”,絕不擔(dān)心“去IOE“會讓自己原來的技能沒有用。這時(shí)候理想變得比什么都重要。
大多數(shù)嚴(yán)重依賴IOE的企業(yè)在技術(shù)人才培養(yǎng)上有點(diǎn)“拿自己的錢給別人交學(xué)費(fèi),但卻給自己戴了手銬”,中國企業(yè)對技術(shù)的需求旺盛超過世界上任何國家和地區(qū),所以技術(shù)上面臨的挑戰(zhàn)也超過了他們,正是我們對國外IT企業(yè)的軟硬件的依賴而導(dǎo)致我們失去了很多自己發(fā)展的機(jī)會,而且國外的技術(shù)未必能解決中國企業(yè)的問題。“去IOE”的經(jīng)驗(yàn)表明,現(xiàn)在我們有一次機(jī)會把我們的需求和錢用來發(fā)展適合長遠(yuǎn)發(fā)展的技術(shù),讓IT圍繞自己的產(chǎn)品來發(fā)展。
對于我們自己的人才選擇,阿里很謹(jǐn)慎,很多在國外廠商干過的頂級人才,并沒有輕松地收到聘書,這是因?yàn)樵谄髽I(yè)中跟著別人做事,和在阿里用使命感開闖出一片天空有很大不同。“去IOE”需要極其合適的人才,才能帶出一支像樣的隊(duì)伍,團(tuán)隊(duì)里每一個(gè)人的潛力也是逐漸被激發(fā)出來的。
揭秘阿里巴巴“雙十一”IT部署
“雙十一”時(shí)每個(gè)商家承擔(dān)比平時(shí)大十倍、百倍甚至千倍的容量,這些因素加起來是讓云計(jì)算變成唯一可以解決這個(gè)問題的方法。
2012年的“雙十一”,阿里巴巴創(chuàng)造了191億的日交易額神話,其中有20%商家的訂單都通過阿里云的平臺來處理,在流量劇增的情況下實(shí)現(xiàn)了系統(tǒng)零故障、訂單零遺漏。2013年“雙十一”,支付寶銷售額達(dá)350.18億元,提升了75%。
2013年阿里云開發(fā)者大會上,阿里云業(yè)務(wù)總經(jīng)理陳金培透露:很多商家將O2O以及其他線上線下業(yè)務(wù)搬到“聚石塔”平臺上,同時(shí)阿里云也針對銀行推出了“聚寶盆”業(yè)務(wù),解決銀行支付貫通的問題。8月15日,阿里巴巴飛天云計(jì)算平臺的單集群服務(wù)器規(guī)模達(dá)到5000臺,服務(wù)淘寶的數(shù)據(jù)開放平臺以及阿里金融的數(shù)據(jù)處理業(yè)務(wù)都成功地轉(zhuǎn)移到這一平臺上。
Q 2013年“雙十一”王堅(jiān)博士專門從英國飛回國督陣,阿里云是怎么幫助天貓、淘寶度過這么大一個(gè)“洪峰”的?
A 阿里云支持“雙十一”主要是從三個(gè)角度:支付問題、淘寶自身和來自客戶的挑戰(zhàn)。支付的難點(diǎn)在銀行,2012年淘寶和天貓的總交易額有191億,交易筆數(shù)是1.028億筆。結(jié)算筆數(shù)非常重要,因?yàn)樵阢y行承擔(dān)不了的前提下,支付寶的技術(shù)能力決定了系統(tǒng)的承載能力。以前,交易量過大時(shí)支付寶就會對交易進(jìn)行排隊(duì),延遲交易。但“雙十一”的交易量太大,延遲時(shí)間太長會產(chǎn)生很大的用戶體驗(yàn)問題,所以支付寶提前鼓勵(lì)用戶先充值進(jìn)支付寶,這筆錢的規(guī)模當(dāng)時(shí)達(dá)到了幾十億,把對銀行系統(tǒng)的壓力直接轉(zhuǎn)嫁到了支付寶系統(tǒng)上,使得“雙十一”當(dāng)天的交易順利進(jìn)行。并且在2013年,中國的中小銀行系統(tǒng)也可以跟支付寶對接了。
淘寶自身的挑戰(zhàn)在于面對突然出現(xiàn)的并發(fā)流量和意外情況時(shí),如何保持系統(tǒng)的穩(wěn)定性并完成天文數(shù)字的交易量。在意外情況下,淘寶無法預(yù)測用戶行為,任何一個(gè)局部的問題都有可能演變?yōu)橐粋€(gè)全局的問題,這是困難所在。“雙十一”當(dāng)天阿里集團(tuán)近千名技術(shù)和業(yè)務(wù)人員坐在一起,用一個(gè)指揮體系處理問題,準(zhǔn)備了幾百種預(yù)案。
解決淘寶客戶的問題主要依靠阿里自身的技術(shù)力量,比如“聚石塔”項(xiàng)目將天貓和淘寶賣家的全部交易流程都部署在阿里云平臺上,保證交易系統(tǒng)的穩(wěn)定性才能保證交易順利完成。把賣家的ERP系統(tǒng)完全架設(shè)在云上,這件事的難度和意義比只解決網(wǎng)站流量擴(kuò)容要大,因?yàn)閺陌l(fā)票打印到發(fā)貨都要通過這個(gè)系統(tǒng),不同的ISV(獨(dú)立軟件開發(fā)商)也在其中起了關(guān)鍵的作用,讓人們體會到一個(gè)生態(tài)的價(jià)值。2013年,淘寶的目標(biāo)是讓75%的交易在云上完成。
Q 為什么商家在云上跟在本地部署會有這么大的區(qū)別呢?
A 首先,現(xiàn)在中國的IT不像大家想象的那么好,很多小企業(yè)的IT建設(shè)不僅受制于成本,還受制于人才,云計(jì)算可以幫這類商家把業(yè)務(wù)搬到互聯(lián)網(wǎng)上來處理。其次,一筆交易從一個(gè)數(shù)據(jù)中心轉(zhuǎn)到另一個(gè)數(shù)據(jù)中心,這當(dāng)中有很大的不確定性,因此互聯(lián)網(wǎng)基礎(chǔ)設(shè)施非常重要,云技術(shù)可以幫助大家解決互聯(lián)網(wǎng)基礎(chǔ)設(shè)施問題,“雙十一”時(shí)每個(gè)商家承擔(dān)比平時(shí)大十倍、百倍甚至千倍的容量,這些因素加起來是讓云計(jì)算變成唯一可以解決這個(gè)問題的方法。
Q 我記得2012年您大概為“雙十一”準(zhǔn)備了幾百個(gè)預(yù)案,2013年有沒有什么不同的準(zhǔn)備?2013年的“雙十一”跟上年的“雙十一”有什么不同?
A 2013年“雙十一”時(shí)整個(gè)系統(tǒng)的成熟度更高。上年花了大概37分鐘支付寶里有了第10億銷售額,2013年大概只花了6分鐘就到了10億。對云計(jì)算最有挑戰(zhàn)的不是在下單那一剎那,是第二天要發(fā)貨打單,所有東西都要上云,有的商家最后會因?yàn)榇虬l(fā)票機(jī)器數(shù)不夠發(fā)不出貨。