CPU指中央處理器,它的規(guī)格決定了一臺服務器工作效能的高低,當前的云計算基于以CPU為中心的體系架構,以軟件定義的方式進行優(yōu)化,在數(shù)據(jù)量暴漲的情況下已然觸及瓶頸。
CIPU則是指云基礎設施處理器,它能通過特定的操作系統(tǒng),將阿里云再全球的200 多萬臺服務器變成一臺“超級計算機”,為客戶提供更高性能、更低價格、更可靠的云計算服務。
一家小店的運營能力,再怎么提高也有限度,兩百萬家小店高效協(xié)同之下,運營能力的提升可想而知。而從個體計算機的集群到“超級計算機”的誕生,也更符合云計算的定義。
可以說,CIPU從源頭再造了云計算全新發(fā)展路徑,這種回歸源頭突破瓶頸的方式,與整個現(xiàn)代科技的發(fā)展路徑不謀而合,正如基礎科學是土壤,應用技術是樹木,當參天大樹難以長成的時候,最需要的往往是厚植培育土壤。
要想更深入地理解阿里云對以CIPU取代CPU成為云計算體系架構中心的信心,還需要將之放入云計算發(fā)展歷程當中來看。
在過去十多年里,云計算技術經歷了兩個發(fā)展階段。第一個階段是分布式和虛擬化技術替代了大型機、小型機,滿足了當時企業(yè)業(yè)務擴展帶來的算力彈性需求。
企業(yè)通過分布式架構將計算能力打散到不同的機器上,解放供應鏈的彈性,同時引入虛擬化技術,實現(xiàn)分時復用,解決單個集群資源利用率相對較低的問題。
這種分布式架構讓企業(yè)具備了云的基礎技術能力,但沒有云計算的核心生產力,比如沒有達到即開即用的資源彈性、按需擴容、線性可擴展性等,難以滿足規(guī)模不斷擴大的業(yè)務需求。
第二階段是資源池化技術,把計算和存儲資源分離,再規(guī)模化編排和調度,提供了超大規(guī)模的計算和存儲資源池。
這種通過將不同的物理資源變成虛擬化的資源,進行統(tǒng)一池化管理的技術,推動了公有云時代的加速到來,企業(yè)不再需要自己管理這些資源,而是由云廠商提供統(tǒng)一調度、統(tǒng)一管理和統(tǒng)一編排,以提高資源的利用率。
如果說分布式和虛擬化技術成就了云計算的崛起,資源池化技術則是大大降低了云計算的使用門檻。但它們都是通過軟件定義的方法,基于傳統(tǒng)的以CPU為中心的體系架構去做優(yōu)化,隨著數(shù)字經濟的到來,“以軟件定義為主”的云計算再次無法滿足產業(yè)需求。
云廠商們發(fā)現(xiàn)管理基礎設施規(guī)模越來越大,復雜度也越來越高,數(shù)據(jù)密集型的計算越來越多,一個純軟件定義的、以 CPU 為中心的云體系結構,虛擬化的代價很高,費用會不斷增加,也難以實現(xiàn)對云計算低時延、高帶寬的需求。
行業(yè)期待著、也努力著推動下一代云計算的發(fā)展。2020年之后,部分芯片巨頭陸續(xù)推出了相關數(shù)據(jù)中心產品,如英偉達的DPU(Data Processing Unit,數(shù)據(jù)處理器)和英特爾的IPU(Infrastructure Processing Units,基礎設施處理器),與阿里云推出CIPU一樣,都是希望設計一個新的管控中心,以替換掉CPU的管控職能。
02 CIPU的破局思路
那么,這些誕生之初就被賦予了替代CPU使命的產品,是如何解決以CPU為中心的云計算所面臨的瓶頸呢?
首先來看DPU。它誕生的背景是帶寬與計算性能的增速失調,CPU的性能從5-10年前每年30%的增幅,到三年前大概只有每年不到3%的增幅。而網絡帶寬每年依舊還有35%左右的增長,這意味著,處理性能和帶寬增速的比例從原來的大概1:1,變成了現(xiàn)在的1:10左右。
因此,DPU側重的是數(shù)據(jù)遷移帶寬能力,作為集成加速平臺,DPU能夠從CPU上卸載關鍵的網絡、存儲和安全任務,降低CPU的開銷,直接效果是給 CPU“減負”。
再來看IPU。IPU緊隨DPU之后,作用也有所類似。IPU通過專用協(xié)議加速器來加速基礎設施功能,包括存儲虛擬化、網絡虛擬化和安全,通過把軟件中的存儲和網絡虛擬化功能從CPU轉移到IPU,從而釋放CPU核心,還能允許靈活的工作負載分配,提高數(shù)據(jù)中心利用率。
盡管技術路徑上有所區(qū)分,但無論是DPU還是IPU,都是想通過軟件定義+硬件加速的方式,替代CPU成為數(shù)據(jù)中心的核心硬件。
CIPU則更像是兩者的綜合體,它向下接入物理的計算、存儲、網絡資源,快速云化并進行硬件加速;向上接入飛天云操作系統(tǒng),管控阿里云全球上百萬臺服務器,讓算力虛擬化損耗降到0,并通過規(guī)模化應用RDMA網絡技術,讓訪問云端比訪問本地硬盤更快。
因此,CIPU既能解決數(shù)據(jù)遷移帶寬的問題,也能云化虛擬化管控數(shù)據(jù)中心。同時,搭載飛天系統(tǒng)設計后,實現(xiàn)了軟硬件一體化,既能通過硬件提供高性能,又能通過軟件提供靈活性。
而CIPU和飛天云操作系統(tǒng)還出自阿里云同一大的研發(fā)團隊之手。阿里云基礎產品首席架構師黃瑞瑞就曾在媒體采訪中指出:“向上設計的飛天云操作系統(tǒng)和向下的 CIPU,兩者之間結合的效果一定是大于 2 的,因為本身就是一體化的?!?/span>
03 3.0的云計算新生態(tài)
寶劍鋒從磨礪出,在正式推出CIPU和飛天云操作系統(tǒng)之前,阿里云在技術積累這條道路上已經走了十余年。
2009年,阿里云自主研發(fā)云計算操作系統(tǒng)飛天誕生,這個系統(tǒng)幫助多個平臺解決了必不可少的極限并發(fā)場景,如天貓的雙十一購物節(jié),12306的春運購票高峰等等。
2017年,阿里云再度自研發(fā)神龍架構,通過把虛擬化轉移到專用硬件中進行加速,實現(xiàn)了性能“0損耗”,一定程度上解決了服務器虛擬化性能損耗的問題。
此后,經過數(shù)輪迭代,神龍卡逐漸加入了編排調度、硬件加速等更多能力,最終誕生了CIPU的雛形,并在不斷完善后推出。
不難發(fā)現(xiàn),阿里云先是通過對飛天系統(tǒng)的定義和迭代,實現(xiàn)了對于客戶需求清晰化的感知。然后才去做 CIPU,通過深度定制底層基礎設施,實現(xiàn)了客戶對于云計算的極致性能和體驗。
與此同時,CIPU和飛天系統(tǒng)還可以與其他自研產品,如神龍計算平臺、盤古存儲平臺和洛神網絡平臺等進行深度的適配。實際上,阿里云已經打造了以飛天云操作系統(tǒng)為核心,自研芯片、服務器、計算、存儲、網絡、安全等軟硬一體的新型計算體系架構。
新型科技產業(yè)中,技術和產品的突破意味著生產力的變革和競爭格局的重塑,因此,技術路線之爭或許還是企業(yè)乃至產業(yè)的命運之爭。
一如新能源技術,磷酸鐵鋰電池之爭與三元鋰電池之爭,單晶硅片與多晶硅片之爭等等,背后都是一個個企業(yè)的沒落與崛起。又如移動通信技術,國內產業(yè)從1G的空白、2G的跟隨、3G的同步,實現(xiàn)了5G的超越。
云計算也是如此。CIPU和飛天系統(tǒng)的推出意味著阿里云找到了一條打破云計算傳統(tǒng)發(fā)展路線的全新途徑,一旦成為主流,阿里云將擁有定義下一代云計算標準的實力,成為中國在云計算,乃至IT產業(yè)的國際競爭中的一大助力。
正如鄭緯民院士所言,阿里云的CIPU將使得中國在爭取云計算的定義權中處于有利位置,改變了原本由西方技術制定的游戲規(guī)則,讓我國IT產業(yè)建立了全球領導力。這一改變格局的事,讓他對中國在下一個技術時代擁有自己的一席之地表示樂觀。
當然,技術的發(fā)展往往是一個不斷突破、不斷前進的過程,技術的路線之爭也常常是一個艱難且漫長的過程,CIPU和飛天系統(tǒng)不會是云計算競爭的終點,阿里云仍需要不斷研發(fā)更多高附加值且代表產業(yè)發(fā)展方向的產品,以爭奪云計算的話語權。