隨著云計算的發(fā)展,云化世界已不再是未來。
作為全球云計算行業(yè)的開創(chuàng)者和探路者,亞馬遜云科技所創(chuàng)辦的re:Invent全球大會,一直是全球云計算領(lǐng)域的行業(yè)風(fēng)向標(biāo)。
2021年,正逢亞馬遜re:Invent的第十年,亞馬遜云科技再一次攜眾多技術(shù)創(chuàng)新成果而來,為蓬勃發(fā)展的全球云計算產(chǎn)業(yè)照亮前路,引領(lǐng)行業(yè)風(fēng)向。
超過15年以來,亞馬遜云科技(Amazon Web Services)一直以技術(shù)創(chuàng)新、服務(wù)豐富、應(yīng)用廣泛而享譽(yù)業(yè)界。根據(jù)Gartner Solution Scorecard 2021能力報告顯示,亞馬遜云科技以總評分94分位居行業(yè)榜首,且是全球唯一總分超90分的云服務(wù)提供商。
自研芯片的多重選擇
自研芯片,向來是云計算廠商著力的焦點,于亞馬遜云科技來說也不例外。
對此,亞馬遜云科技大中華區(qū)產(chǎn)品部計算與存儲總監(jiān)周舸表示,隨著實例多樣化創(chuàng)新不斷深入,云計算廠商必須專注到芯片研發(fā)的本身,從芯片的創(chuàng)新開始。
而亞馬遜云科技的自研芯片創(chuàng)新之路,始于2013年。截至今日,自研芯片路線已實現(xiàn)數(shù)線并行,涵蓋服務(wù)器芯片、訓(xùn)練推理芯片等多項賽道。
而在2021 re:Invent上,亞馬遜云科技發(fā)布了自研通用服務(wù)器芯片Graviton 3、機(jī)器學(xué)習(xí)云端芯片Trainium,以及相應(yīng)固態(tài)硬盤產(chǎn)品,進(jìn)而強(qiáng)化自身在云計算領(lǐng)域的優(yōu)勢。
在數(shù)款產(chǎn)品中,通用芯片Graviton 3因性能飛躍而備受關(guān)注。據(jù)悉,采用Arm架構(gòu)的Graviton 3基于Graviton2有25%以上的提升,浮點的運算能力提升更是超過兩倍,且以實現(xiàn)應(yīng)用。
對此,周舸坦言:“所有的芯片者都面臨著選擇的問題,Graviton3 GPU相對于Graviton2,晶體管數(shù)高出200億個,而如何以更高規(guī)格實現(xiàn)最大的效能提升,成為了芯片設(shè)計過程中需思考的問題?!?/span>
一般而言,提升CPU性能主要有兩大方向,一是提高頻率,二是增加內(nèi)核數(shù)量。前者實現(xiàn)起來十分容易,只是,云作為超大規(guī)模數(shù)據(jù)中心,并不能簡單套用此類升級方案。
“提高頻率確實能實現(xiàn)性能提升,但以現(xiàn)在的半導(dǎo)體功率與能力,提高頻率也意味著功率、發(fā)熱量的上升,這將會帶來很多散熱的壓力和負(fù)載,從而增加了能耗,并降低了云的效率,最后使客戶使用成本上升,因此我們在芯片頻率提升方面尤為謹(jǐn)慎。”周舸解釋道。
因此,亞馬遜云科技并沒有選擇單純地堆料、拉高頻率,而是在設(shè)備實際使用情況中尋求問題的解答?;诖?,以指令并行的方式增加內(nèi)核寬度,成為了亞馬遜云科技技術(shù)迭代的可行路徑。
“指令并行,即同一個時鐘周期里,內(nèi)核能執(zhí)行更多指令、完成更多任務(wù)。此外,我們還在同一個指令里面加載更多的數(shù)據(jù)量,這樣即使不提升頻率,也能通過同期效率提升實現(xiàn)性能的提升?!敝荇凑劦?。
而內(nèi)核增量方面,周舸坦言,增加核數(shù)確實不失為性能提升的良劑,但客戶工作負(fù)載往往涉及大量大數(shù)據(jù)、微服務(wù)架構(gòu)、HPC服務(wù),對于內(nèi)存的帶寬和延時的敏感度極高。
在此背景下,剩余晶體管是增加核數(shù),還是增加CPU的內(nèi)存的帶寬、降低延遲,成為了硬件迭代的又一個選擇題。而最終,亞馬遜云科技選擇了后者。
基于上述“巧思”,應(yīng)用Graviton3的Twitter性能提升約20%到80%、F1流體仿真效率提升40%、Epic《堡壘之夜》游戲性能體驗大幅提升,實踐應(yīng)用過程中效能提升顯著,且功耗大幅降低,從而降低客戶以往高昂的成本代價。
此外,除通用芯片Graviton3, 基于Trainium的實例——Trn1同樣是亞馬遜云科技在自研芯片方面的一大亮點。
周舸指出,機(jī)器學(xué)習(xí)模型復(fù)雜度呈指數(shù)級增長,GPU、加速芯片本身已很難跟上其增長步伐,單卡性能已觸達(dá)瓶頸。
針對該問題,亞馬遜云科技給出的解答是并行訓(xùn)練。而想要實現(xiàn)并行訓(xùn)練、組建多卡訓(xùn)練,其難點并不局限于芯片本身,而多存在于內(nèi)存與網(wǎng)絡(luò)部分,這也成為了亞馬遜云科技發(fā)力的重點。
通過增加內(nèi)存與提升網(wǎng)絡(luò)性能,亞馬遜云科技拓展了集訓(xùn)訓(xùn)練規(guī)模,構(gòu)建更適合專業(yè)芯片發(fā)揮的網(wǎng)絡(luò)環(huán)境及其配套服務(wù),從而實現(xiàn)機(jī)器學(xué)習(xí)訓(xùn)練能力的大幅提升。
作為亞馬遜云科技自研芯片,無論是Graviton3,還是Trn1,均為其云服務(wù)而生。而對用戶而言,云服務(wù)自誕生起,即代表著一個個API。因此,對云計算廠商而言,如何運營好API成為了自身云服務(wù)發(fā)展歷程中亟待解決的命題。
打牢API底層,將創(chuàng)新能力交由用戶
從應(yīng)用場景出發(fā),是理解API內(nèi)涵的有效路徑。
亞馬遜云科技大中華區(qū)產(chǎn)品部數(shù)據(jù)類產(chǎn)品高級經(jīng)理王曉野表示,不管是計算資源Amazon EC2,還是存儲資源Amazon S3,亦或是創(chuàng)建網(wǎng)絡(luò)拓?fù)?、?chuàng)建數(shù)據(jù)庫的資源、起停關(guān)等,均屬API應(yīng)用。
時至今日,亞馬遜云科技共有200多項云服務(wù),其中大多數(shù)來自于其簡單概念,旨在向用戶提供最大程度的創(chuàng)新能力。不過,運維如此復(fù)雜的API系統(tǒng)并非易事。對此,王曉野指出,亞馬遜云科技在15年API運營過程中總結(jié)出六大經(jīng)驗:
第一,對于API的構(gòu)建,API是永遠(yuǎn)的?!币坏〢PI被發(fā)布成為一個公共可用的服務(wù),那么就會有成千上萬得到客戶不斷去調(diào)用它。意味著我們對這個API的任何改動都是不明智的,而且是很危險的,我們不能夠?qū)υ械腁PI進(jìn)行刪除或者更改?!巴鯐砸敖忉尩?。
第二,對云廠商和任何API的設(shè)計者來說,最大的挑戰(zhàn)其實就是向后兼容。對此,王曉野指出:”亞馬遜云一直在堅持保持超高的向后兼容性,對于老版本的API他們并不允許被觸碰和開發(fā)者的協(xié)定,也不可以去改變API已有的使用方式,只能在上面增加新的功能,而不會去刪除或者改變已有的API。“
第三,應(yīng)該以用戶真正應(yīng)用場景出發(fā)來構(gòu)建API,尋求用戶最需要的工具或服務(wù),以及想要實現(xiàn)的功能,而不是局限于自身現(xiàn)有何種技術(shù)來加以實現(xiàn)。
第四,讓API的故障模式有據(jù)可查?!耙粋€真正的好的API和服務(wù),不僅僅要讓別人知道它工作的時候是什么樣,而且要讓大家知道,當(dāng)它不工作的時候,開發(fā)者能真正知道它哪里出了問題,然后持續(xù)地去對它進(jìn)行改進(jìn)?!蓖鯐砸敖忉尩馈?/span>
第五,創(chuàng)建具有明確、特定目的、自描述的API。自描述其實對所有API是一個最基礎(chǔ)的原則,但是真正能夠保證它足夠簡潔,讓開發(fā)者能夠理解,需要回到一個最簡單的邏輯,即足夠簡單,且為專門的功能所設(shè)計。
第六,對于API和云服務(wù),要不惜一切代價地去隱藏背后的技術(shù)實現(xiàn),以更好聚焦在用戶的需求上。如果過早地透露了這些具體的底層實現(xiàn),用戶便可能過分關(guān)注于技術(shù)底層的變化,從而忽略具體的技術(shù)應(yīng)用層面。
而如何驅(qū)動API應(yīng)用,王曉野以機(jī)械為例,指出:“像有輪子、杠桿、軸輪就能構(gòu)建手推車一般,通過簡單機(jī)械組合便能構(gòu)建復(fù)雜機(jī)械,在此過程中最熟悉復(fù)雜機(jī)械應(yīng)用的人當(dāng)屬構(gòu)建者們,云服務(wù)亦然?!?/span>
在此過程中,API所屬的便是簡單機(jī)械范疇。而作為云廠商,亞馬遜云科技不需要為用戶構(gòu)建好最終的復(fù)雜機(jī)械,而是向用戶提供基礎(chǔ)元素,令其由此構(gòu)建屬于自身的云服務(wù)應(yīng)用。可見,讓更多用戶成為創(chuàng)造者,成為了其API運維的重要內(nèi)涵。
只是,亞馬遜云科技想要實現(xiàn)的不止于此。亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理顧凡坦言,希望能降低門檻,把云計算交到更多人手里。
降低門檻,實現(xiàn)技術(shù)的普惠化
“降低門檻本身就是云計算的一個非常重要的核心價值?!鳖櫡踩缡钦f。
在他看來,無論是初創(chuàng)公司,還是體量龐大的企業(yè),在云計算應(yīng)用層面都應(yīng)處于同一條起跑線。而不論是開發(fā)人員、運維人員及數(shù)據(jù)科學(xué)家,還是行業(yè)用戶或云計算初學(xué)者,都存在有云計算需求。因此,云計算需要降低門檻。
如何降低門檻,釋放數(shù)據(jù)價值?亞馬遜云科技從多個層面予以解答。
首先是業(yè)務(wù)層面。本屆re:Invent上,亞馬遜云科技推出多項服務(wù)與功能,試圖降低用戶的使用門檻:“我們推出Amplify Studio,允許前端的開發(fā)人員以低代碼的方式,在手機(jī)端、web端實現(xiàn)端到端的,包括UI、包括后端業(yè)務(wù)邏輯創(chuàng)建的能力?!蓖鯐砸瓣U述道。
而除面向開發(fā)人員的Amplify Studio外,亞馬遜云科技還發(fā)布了Amazon DevOps Guru for RDS,通過亞馬遜機(jī)器學(xué)習(xí)模型自動識別和分析各種潛在的性能問題,以降低了運維人員使用云的門檻,為運維人員消除無差別的繁瑣的工作。
“此外,為降低業(yè)務(wù)人員使用機(jī)器學(xué)習(xí)的門檻,我們同時推出了Amazon SageMaker Canvas,它使業(yè)務(wù)用戶或者數(shù)據(jù)分析師無需任何機(jī)器學(xué)習(xí)經(jīng)驗或者任何代碼,使用拖拉拽的功能,就能簡單生成一個機(jī)器學(xué)習(xí)的分析,并且和數(shù)據(jù)科學(xué)家進(jìn)行協(xié)同?!眮嗰R遜云科技大中華區(qū)機(jī)器學(xué)習(xí)產(chǎn)品高級經(jīng)理張洋介紹道。
對此,IDC中國助理研究總監(jiān)盧言霞認(rèn)為,Amazon SageMaker Canvas通過簡單點擊即可完成整個機(jī)器學(xué)習(xí)工作流,值得沒有技術(shù)背景的分析師,以及聚焦業(yè)務(wù)分析層面但希望實時數(shù)據(jù)洞察的分析人群關(guān)注。
值得注意的是,上述產(chǎn)品僅是亞馬遜云科技業(yè)務(wù)下探的冰山一角,想要真正將云計算交到更多人手里,顯然不能局限于業(yè)務(wù)層面。
因此,亞馬遜云科技宣布成立1000萬美元人工智能和機(jī)器學(xué)習(xí)獎學(xué)金(Amazon AI & ML Scholarship),用于獎勵全球范圍內(nèi)弱勢群體和服務(wù)設(shè)施欠缺地區(qū)的學(xué)生,幫助他們做好準(zhǔn)備,在未來從事機(jī)器學(xué)習(xí)相關(guān)工作。
艾瑞咨詢研究副總監(jiān)王成峰談到,亞馬遜云科技打造出了多款面向更多非IT人群的終端應(yīng)用,將數(shù)字技術(shù)紅利的“普惠化”,令人印象深刻。
而目前,亞馬遜云科技已提供超過200項全功能的服務(wù),基礎(chǔ)設(shè)施遍及25個地理區(qū)域的81個可用區(qū),服務(wù)于全球數(shù)百萬客戶,支撐其基礎(chǔ)設(shè)施,提高敏捷性,降低成本。