云計算從誕生以來就是一種將計算、存儲和網(wǎng)絡(luò)資源以服務(wù)的形式對外提供的商業(yè)模式,是信息技術(shù)發(fā)展和服務(wù)模式創(chuàng)新的集中體現(xiàn),得到客戶和市場的高度認可。云計算已經(jīng)成為數(shù)字經(jīng)濟發(fā)展不可或缺的基礎(chǔ)設(shè)施,承載的應(yīng)用包括傳統(tǒng)互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)應(yīng)用,涉及政府、交通等千行百業(yè)。云計算不僅是傳統(tǒng)通用計算應(yīng)用的數(shù)字化轉(zhuǎn)型,而且包括智能計算等新型應(yīng)用類型,特別是 AI 大模型的出現(xiàn),對云服務(wù)能力提出了更高的要求。目前,計算機體系結(jié)構(gòu)進入發(fā)展的黃金十年 ,體系結(jié)構(gòu)的創(chuàng)新對云計算技術(shù)創(chuàng)新的影響正在顯現(xiàn),在多重因素驅(qū)動下,云計算的基礎(chǔ)設(shè)施在架構(gòu)、資源和管理等方面必將迎來一場新的技術(shù)革命。
1
云計算需求推動技術(shù)革新
信息化時代,云計算市場和業(yè)務(wù)層面的需求都推動云計算技術(shù)向前演進。在市場方面,云計算市場進入穩(wěn)定增長階段,市場競爭格局愈演愈烈,云行業(yè)巨頭加速發(fā)展。在業(yè)務(wù)需求層面,以通用業(yè)務(wù)為主轉(zhuǎn)變?yōu)橥ㄖ蔷W(wǎng)融合的新型多元業(yè)務(wù)模式,為云計算發(fā)展帶來新需求。
1.1 云計算市場需求
從市場發(fā)展看,企業(yè)上云成為不可逆轉(zhuǎn)的趨勢。2023 年 7 月 6 日,國際數(shù)據(jù)公司(International Data Corporation,IDC)發(fā)布的《全球公共云服務(wù)半年度跟蹤報告》顯示,2022 年全球公共云服務(wù)市場收入總計達到 5 458 億美元,比 2021 年猛增 22.9%。根據(jù) Gartner 的預(yù)測,2023 年全球用戶在公共云服務(wù)上的支出預(yù)計將增長 20.7%,總計將達到 5 918億美元。從市場格局來看,云計算領(lǐng)域的國際競爭加劇,中美差距正逐漸拉大,亞馬遜 AWS、微軟云Azure 保持高速發(fā)展態(tài)勢,市場份額占全球一半,谷歌云 2022 年所占的市場份額為 6.1%,超過了阿里云的 5.2%,取代阿里云成為全球第三大云廠商。
1.2 云計算業(yè)務(wù)需求
從業(yè)務(wù)發(fā)展來看,通算業(yè)務(wù)數(shù)量激增,智算、超算業(yè)務(wù)異軍突起,網(wǎng)算業(yè)務(wù)特色發(fā)展 ,多元業(yè)務(wù)融合推動新型業(yè)務(wù)模式的出現(xiàn),為云計算的計算規(guī)模、存儲容量、網(wǎng)絡(luò)連接、服務(wù)模式等方面帶來新的需求。以工業(yè)互聯(lián)網(wǎng)、元宇宙為代表的新型業(yè)務(wù)場景融合通算、智算、網(wǎng)算多元業(yè)務(wù),具有通算實時處理、智算推理決策、云網(wǎng)融合生態(tài)構(gòu)建多方位需求;政策引領(lǐng)企業(yè)深度上云用云,賦能傳統(tǒng)企業(yè)數(shù)字化轉(zhuǎn)型升級,企業(yè)數(shù)字化轉(zhuǎn)型要求云基礎(chǔ)設(shè)施具有快速響應(yīng)、高可用性、高擴展性等特性;大模型推動智算業(yè)務(wù)高速發(fā)展,需要處理海量數(shù)據(jù)、大規(guī)模的參數(shù)訓(xùn)練,對算力、存儲、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施高性能、大容量、低帶寬的需求日益增長;主流云商、運營商持續(xù)推動網(wǎng)絡(luò)全面上云,催生云計算基礎(chǔ)設(shè)施向通信行業(yè)深度定制化升級,需在基礎(chǔ)設(shè)施層面徹底打破云和網(wǎng)的技術(shù)邊界,構(gòu)筑統(tǒng)一云網(wǎng)資源。
2
下一代云計算基礎(chǔ)設(shè)施架構(gòu)與特征
下一代云計算基礎(chǔ)設(shè)施逐步走向技術(shù)融合體系化創(chuàng)新,延伸帶動異構(gòu)基礎(chǔ)設(shè)施融合統(tǒng)管,向上賦能服務(wù)體系升級,構(gòu)建產(chǎn)業(yè)智能的數(shù)字化新世界。遵循下一代云計算業(yè)務(wù)的需求變革,下一代云計算基礎(chǔ)設(shè)施呈現(xiàn)出高效能、廣分布和超大規(guī)模的特性。
2.1 體系架構(gòu)
下一代云計算基礎(chǔ)設(shè)施架構(gòu)以分布式多云為核心,構(gòu)建“一云多算”融合底座,依托異構(gòu)資源統(tǒng)一管理、分布式任務(wù)協(xié)同框架,打造 AI 貫穿的新型服務(wù)體系,支撐以通算、智算、超算、網(wǎng)絡(luò)融合業(yè)務(wù)的一體化承載,實現(xiàn)全鏈路業(yè)務(wù)的可用性保障。在總體架構(gòu)上,保留傳統(tǒng)云架構(gòu)的分層體系;在云網(wǎng)資源建設(shè)上,強調(diào)多種類型資源池的分布式優(yōu)化布局;在軟、硬件資源層強調(diào)多樣性,進一步劃分為以 CPU 為主的通算基礎(chǔ)設(shè)施和以 GPU 等 AI 加速芯片為主的智算基礎(chǔ)設(shè)施。分布式云平臺對多維異構(gòu)資源進行統(tǒng)一納管,并實現(xiàn)任務(wù)高效協(xié)同調(diào)度。在基礎(chǔ)設(shè)施架構(gòu)之上,云服務(wù)形態(tài)呈現(xiàn)通用化和智能化發(fā)展趨勢,承載多元業(yè)務(wù)類型,提供豐富的產(chǎn)業(yè)數(shù)字化能力。下一代云計算基礎(chǔ)設(shè)施架構(gòu)如圖 1所示。
圖 1 下一代云計算基礎(chǔ)設(shè)施架構(gòu)
(1)分布式云網(wǎng)資源。
云資源池呈現(xiàn)分布式、多云、全域部署模式,以云為中心構(gòu)建全國一張網(wǎng)。以地理空間劃分,實現(xiàn)從中心、區(qū)域到邊緣 3 層級覆蓋能力 。分布式云網(wǎng)資源池如圖 2 所示,中心云資源池部署在資源集中的熱點區(qū)域,向超大規(guī)模集約化發(fā)展;區(qū)域云資源池滿足熱點業(yè)務(wù),具有一定規(guī)模,同時兼具時延優(yōu)勢;邊緣云資源池可建設(shè)在更靠近用戶和數(shù)據(jù)生產(chǎn)源頭的網(wǎng)絡(luò)邊緣,主要包括小型化云節(jié)點,解決用戶側(cè)邊緣的定制化需求。多方云資源池混合部署,加強多云商資源池互聯(lián)互通且互為增強,以算力資源交易的形式提供高效、去中心化、實時便捷的資源供給,實現(xiàn)全域基礎(chǔ)設(shè)施能力覆蓋。入云網(wǎng)絡(luò)應(yīng)具備高速泛在、天地一體的全連接能力 。除了網(wǎng)絡(luò)和專線等基礎(chǔ)接入能力,還應(yīng)具備“5G+ 千兆光寬 +WiFi 6”的三千兆接入能力及協(xié)同衛(wèi)星網(wǎng)絡(luò)打造天地一體的差異化服務(wù)的能力。云間網(wǎng)絡(luò)應(yīng)具備高帶寬、高質(zhì)量特性,引入確定性網(wǎng)絡(luò)、全光網(wǎng)絡(luò)等技術(shù),實現(xiàn)中心云與區(qū)域云、區(qū)域云與邊緣云、邊緣云與邊緣云間的按需、可靠的高速互聯(lián)。
圖 2 分布式云網(wǎng)資源池
(2)通智融合基礎(chǔ)設(shè)施。
通用計算基礎(chǔ)設(shè)施主要指基于 CPU 芯片的服務(wù)器,在中心側(cè)和邊緣側(cè)分布式部署,由全域覆蓋的入云 / 云間網(wǎng)絡(luò)拉通業(yè)務(wù)訪問和數(shù)據(jù)獲取,主要實現(xiàn)通用計算業(yè)務(wù)的資源供給。通用計算基礎(chǔ)設(shè)施還包括以實現(xiàn)網(wǎng)絡(luò)云化業(yè)務(wù)為代表的某些能力定制化增強的基礎(chǔ)設(shè)施,提升不同業(yè)務(wù)場景下的基礎(chǔ)設(shè)施的性能。智算基礎(chǔ)設(shè)施基于 GPU、FPGA[9]、ASIC 等芯片,為 AI 應(yīng)用提供所需算力服務(wù)、數(shù)據(jù)服務(wù)、算法服務(wù)的公共算力新型基礎(chǔ)設(shè)施 ,通常表現(xiàn)為大規(guī)模、高性能、高可靠性的智算集群。使用大算力芯片及大容量內(nèi)存等能力支撐模型訓(xùn)練、推理等計算密集型任務(wù);使用高速、大容量的存儲設(shè)備及存儲技術(shù),基于分布式架構(gòu)實現(xiàn)高可用性和可擴展性。圍繞遠程直接內(nèi)存訪問(Remote Direct Memory Access,RDMA)構(gòu)建高性能網(wǎng)絡(luò)體系,其組網(wǎng)架構(gòu)具備大規(guī)模、跳數(shù)最優(yōu)的網(wǎng)絡(luò)連接能力。基于端網(wǎng)協(xié)同和軟硬融合構(gòu)建高帶寬、低延遲的無損網(wǎng)絡(luò)。
(3)全局化管理調(diào)度。
多維度、異構(gòu)資源統(tǒng)一管理,面向業(yè)務(wù)進行任務(wù)與基礎(chǔ)設(shè)施資源的高效適配。通過對不同技術(shù)架構(gòu)搭建的計算資源、網(wǎng)絡(luò)資源和存儲資源進行抽象,并將當(dāng)前各類公有云、私有云平臺的不同類型資源整合到統(tǒng)一的管理框架,實現(xiàn)全局異構(gòu)資源統(tǒng)一納管,能更好地應(yīng)對業(yè)務(wù)負載對資源的多樣化需求,發(fā)揮各類資源的特性和優(yōu)勢,提高整個系統(tǒng)的效能。面向大規(guī)模業(yè)務(wù)進行功能模塊解耦,子任務(wù)間通過網(wǎng)絡(luò)交互完成業(yè)務(wù)處理,分布式任務(wù)協(xié)同通過將上層子任務(wù)需求與底層基礎(chǔ)設(shè)施資源進行適配,實現(xiàn)任務(wù)的精準(zhǔn)實時、穩(wěn)定高效調(diào)度和編排。任務(wù)調(diào)度策略根據(jù)資源管理層提供的資源狀態(tài)信息和性能指標(biāo)進行定制,推進任務(wù)需求動態(tài)調(diào)整資源的分配和使用,提升面向超大規(guī)模業(yè)務(wù)的資源管理調(diào)度能力。
(4)智能化服務(wù)模式。
上層以云服務(wù)形式承載包括數(shù)字化業(yè)務(wù)、智算業(yè)務(wù)、超算業(yè)務(wù)和網(wǎng)絡(luò)業(yè)務(wù)在內(nèi)的多元解決方案,將 AI 融入基礎(chǔ)設(shè)施即服務(wù)(Infrastructure as a Service,IaaS)、平臺即服務(wù)(Platform as a Service,PaaS)、軟件即服務(wù)(Software as a Service,SaaS)層,實現(xiàn)數(shù)字化業(yè)務(wù)的全面升級 。擴展新應(yīng)用場景下的模型即服務(wù)(Model as a Service,MaaS)新型服務(wù)模式,打通數(shù)據(jù)平臺、深度學(xué)習(xí)訓(xùn)練框架、推理部署引擎和模型生產(chǎn)平臺,實現(xiàn)從數(shù)據(jù)存儲、標(biāo)注到模型訓(xùn)練、生產(chǎn)、部署、測試的全鏈路、批量化過程。
2.2 核心特征
下一代云計算基礎(chǔ)設(shè)施的核心特征為廣分布、高效能和超大規(guī)模。
(1)廣分布的云網(wǎng)資源。
依托分布式云架構(gòu),實現(xiàn)從服務(wù)商云資源池、用戶本地云資源池到生產(chǎn)現(xiàn)場的近全域基礎(chǔ)設(shè)施廣覆蓋;提供全面連接、高可靠網(wǎng)絡(luò)保障,提供空天地海一體化的廣連接;在不同地理位置資源池提供一致性服務(wù),提供隨時隨地一鍵式云網(wǎng)資源供給。
(2)高效能的硬件資源供給。
基于綠色先進的多元算力,實現(xiàn)十倍以上計算性能的提升。構(gòu)建集約高效的新型存儲,提供數(shù)字化浪潮下的海量存儲需求。推動系統(tǒng)級斷網(wǎng)協(xié)同體系創(chuàng)新,構(gòu)建十萬級節(jié)點間的低耗高速互聯(lián)網(wǎng)絡(luò)。
(3)超大規(guī)模管理調(diào)度。
數(shù)據(jù)管控規(guī)模持續(xù)增加,提供 PB 級大數(shù)據(jù)體量的多模態(tài)數(shù)據(jù)管理調(diào)度;支撐復(fù)雜業(yè)務(wù)需求邏輯煩瑣、交互頻繁的模塊化管理,實現(xiàn)面向復(fù)雜業(yè)務(wù)邏輯的管理調(diào)度;海量的數(shù)據(jù)和高復(fù)雜度的算法,驅(qū)動云平臺實現(xiàn)百 E 級更大規(guī)模算力的統(tǒng)一管控。
3
下一代云計算基礎(chǔ)設(shè)施關(guān)鍵技術(shù)
下一代云計算基礎(chǔ)設(shè)施依托算力、存儲、網(wǎng)絡(luò)等方面的關(guān)鍵技術(shù),推動云計算基礎(chǔ)設(shè)施向高效能演進。在計算層面融合 AI 芯片,通過 RISC-V 指令集 統(tǒng)一多元異構(gòu)計算架構(gòu)提供云服務(wù)算力基石;在網(wǎng)絡(luò)層面面向大規(guī)模、高帶寬、低時延及高可靠的集群通信需求,構(gòu)建基于 RDMA 的高性能智算中心網(wǎng)絡(luò)體系;在存儲層面,面向海量數(shù)據(jù)存儲和并行處理需求,引入新型存儲技術(shù)提供高速、高并發(fā)和低時延的讀寫性能,共筑高效能的硬件資源供給。
3.1 以 RISC-V 為導(dǎo)向的通智異構(gòu)算力技術(shù)
智能化時代,AI 在各行業(yè)領(lǐng)域持續(xù)深化,應(yīng)用場景也不斷豐富,以科學(xué)計算和大模型為例,在傳統(tǒng)的地震波模擬的科學(xué)計算場景下,對數(shù)值精度的要求極高,AI 大模型訓(xùn)練則適用于數(shù)值范圍大、但數(shù)值精度要求相對較低的 16 位浮點類型,而 AI 大模型推理由于更關(guān)注推理速度等性能,則可以在更低的數(shù)值精度下進行處理。因此,愈加復(fù)雜多樣的計算場景,為算力基礎(chǔ)設(shè)施提出了多元化挑戰(zhàn)。不同數(shù)值精度的計算需求,對于計算芯片架構(gòu)要求也具有一定差異性。此外,摩爾定律帶來的計算性能提升空間有限,通用 CPU 性能的持續(xù)提升呈現(xiàn)整體性加速放緩趨勢,而 AI 加速應(yīng)用帶來計算量指數(shù)增長態(tài)勢,遠超摩爾定律帶來的算力提升速度。
下一代算力將從以 CPU 為主的通用計算基礎(chǔ)設(shè)施逐漸向 CPU、GPU、XPU 等異構(gòu)算力融合方向發(fā)展,突破了傳統(tǒng)計算芯片發(fā)展的慣性思維,不再強調(diào)系統(tǒng)中某一種類型計算芯片的核心地位,而是從系統(tǒng)層面優(yōu)化性能、性價比等核心指標(biāo),體現(xiàn)綜合的算力供給性能優(yōu)勢。現(xiàn)階段 RISC-V 指令集由于其開源和可擴展特性,已被廣泛用于開發(fā) CPU、GPU 等通算、智算芯片,可有效解決當(dāng)前 CPU 和GPU 因基于不同的指令集架構(gòu),造成的生態(tài)復(fù)雜、開發(fā)運維難度高等問題。下一步 RISC-V 將通算和智算基礎(chǔ)設(shè)施在指令集層面進行統(tǒng)一,實現(xiàn)編程接口的統(tǒng)一,從而實現(xiàn)黃金十年的終極目標(biāo):采用統(tǒng)一指令集來實現(xiàn) DSA 芯片和通用芯片,為上述應(yīng)用開發(fā)提供統(tǒng)一編譯環(huán)境和開發(fā)語言,支持 RISC-V指令集對“XPU”的多核異構(gòu)融合,構(gòu)建高性能 AI算力集群和高效能的算力底座。
3.2 面向全域互聯(lián)的新型網(wǎng)絡(luò)技術(shù)
海量數(shù)據(jù)流的產(chǎn)生和多元化的應(yīng)用場景為智算產(chǎn)業(yè)帶來了新的挑戰(zhàn),推動了算力基礎(chǔ)設(shè)施服務(wù)器級單點處理向互聯(lián)協(xié)作的演進,將同架構(gòu) / 跨架構(gòu)、同地域 / 跨地域的算力節(jié)點大規(guī)模組網(wǎng),形成下一代全域互聯(lián)的新型網(wǎng)絡(luò)架構(gòu)。為了實現(xiàn)這些需求,智算中心內(nèi)節(jié)點數(shù)量將大幅增長,從現(xiàn)在的十萬臺服務(wù)器增長到百萬級互聯(lián),使得智算中心組網(wǎng)面臨超大規(guī)模沖擊。以大模型為代表的智算業(yè)務(wù)2025 年將向百萬億參數(shù)模型演進,存儲介質(zhì) SSD的訪問性能較傳統(tǒng) HDD 已有了百倍提升,在存儲介質(zhì)數(shù)據(jù)讀取時間大幅降低的情況下,網(wǎng)絡(luò)時延占比從原來的小于 5% 上升到 65%,意味著存儲介質(zhì)有一半以上的時間是空閑通信等待。如何降低通信時延,提升網(wǎng)絡(luò)吞吐也是智算中心網(wǎng)絡(luò)的關(guān)鍵挑戰(zhàn)之一。
下一代數(shù)據(jù)中心網(wǎng)絡(luò)將具備超高性能、超高可靠性及超大規(guī)模連接能力。現(xiàn)階段新建智能計算中心網(wǎng)絡(luò)通常使用 RDMA 網(wǎng)絡(luò)協(xié)議來減少傳輸時延,提升網(wǎng)絡(luò)吞吐,并逐步在規(guī)模、帶寬、穩(wěn)定性、時延 / 抖動及自動化能力方面不斷優(yōu)化提升。下一步基于 RDMA 的高性能智算中心網(wǎng)絡(luò)體系,需要不斷推進網(wǎng)絡(luò)拓撲、網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)協(xié)議等方面的創(chuàng)新,加強在擁塞控制算法、軟硬協(xié)同加速及 QP連接擴展等方面的能力突破,結(jié)合全光網(wǎng)絡(luò)發(fā)展趨勢,從而滿足各類業(yè)務(wù)高并發(fā)、大帶寬、高通信效率需求。
3.3 以數(shù)據(jù)為中心的新型存儲技術(shù)
在智算業(yè)務(wù)浪潮的驅(qū)動下,數(shù)據(jù)成為第五大生產(chǎn)要素,圍繞數(shù)據(jù)構(gòu)建的基座必然發(fā)生變革,存力覺醒拉開新的篇章。在芯片層面,馮·諾依曼架構(gòu)下計算和存儲分離,計算單元從內(nèi)存中讀取數(shù)據(jù),計算完成后返回內(nèi)存,然而隨著 AI 大模型的發(fā)展,這種架構(gòu)中存儲器的數(shù)據(jù)訪問速度跟不上計算單元的數(shù)據(jù)處理速度,阻礙性能提升的“存儲墻”問題嚴(yán)重。在集群層面,傳統(tǒng)存算融合架構(gòu)面臨數(shù)據(jù)保存周期與服務(wù)器更新周期不匹配、性能可靠與資源利用率難以兼得、新型分布式應(yīng)用的極簡高效共享存儲訴求和以 CPU 為中心的服務(wù)器架構(gòu)導(dǎo)致數(shù)據(jù)密集型應(yīng)用效率低下等問題,下一代云計算底座在存儲容量利用、存力效率等方面面臨挑戰(zhàn)。
下一代以數(shù)據(jù)為中心的存儲需要為云內(nèi)海量數(shù)據(jù)分布式通信提供超高性能的讀寫支持和超大規(guī)模的連接能力。在智算時代嶄新的發(fā)展階段,數(shù)據(jù)存儲堪稱 AI 訓(xùn)練和推理應(yīng)用的基石——既是加速多模態(tài)數(shù)據(jù)智能訓(xùn)練的核心平臺,也是支撐海量終端智慧應(yīng)用的基礎(chǔ)設(shè)施。單芯片層面存儲朝著存算一體方向演進,計算越來越靠近存儲,減少不必要的數(shù)據(jù)搬運,直接存儲單元參與邏輯計算提升算力,在單位面積不變的情況下規(guī)?;黾佑嬎愫诵臄?shù),通過架構(gòu)創(chuàng)新提供綜合性能全面兼顧的芯片及板卡,為廣泛的邊緣 AI 業(yè)務(wù)提供服務(wù)。集群層面,隨著 RDMA、CXL、NUVMe SSD 等新型硬件技術(shù)的發(fā)展,需要構(gòu)建新型存算分離架構(gòu),以確保云和網(wǎng)、不同云存儲域服務(wù)能夠兼顧資源利用率、可靠性等核心訴求,徹底實現(xiàn)存算解耦,組建彼此相互獨立的硬件資源池,實現(xiàn)細粒度的處理分工,使數(shù)據(jù)處理等 CPU 不擅長的任務(wù)被專用加速器替代,以實現(xiàn)能效比最優(yōu)的組合。
4
下一代云計算平臺關(guān)鍵技術(shù)
下一代云計算平臺引入新型納管、池化和調(diào)度技術(shù)解決大規(guī)模算力獲取難度大、成本高、資源效率低的問題,賦能業(yè)務(wù)需求,促進超大規(guī)模的全局基礎(chǔ)設(shè)施資源的智能協(xié)同調(diào)度。
4.1 跨類型跨架構(gòu)的資源統(tǒng)一納管
跨類型跨架構(gòu)的資源統(tǒng)一納管打破單機資源調(diào)度的物理邊界,解決底層異構(gòu)物理硬件間存在的流程接通、芯片互聯(lián)和軟件適配等差異化問題,構(gòu)建高效、協(xié)調(diào)統(tǒng)一的異構(gòu)算力資源池,更加便捷地實現(xiàn)資源有效配置和管理,降低建設(shè)和運營成本,快速滿足用戶多變的資源使用需求。在具體技術(shù)上,跨類型跨架構(gòu)的資源統(tǒng)一納管將重點考慮算網(wǎng)存資源抽象、異構(gòu)資源池化、內(nèi)存一致性池化和輕量級虛擬化等技術(shù)。
(1)算網(wǎng)存資源抽象。
算網(wǎng)存資源抽象技術(shù)通過將計算、存儲、網(wǎng)絡(luò)等資源進行合理抽象,屏蔽基礎(chǔ)設(shè)施的物理特性和資源類型,可在同一應(yīng)用場景下作為一種面向業(yè)務(wù)的產(chǎn)品被協(xié)同管理、編排、共享。用戶只需關(guān)注業(yè)務(wù)自身來調(diào)整資源的配置,包括統(tǒng)一資源應(yīng)用程序接口(Application Programming Interface,API)、資源模型轉(zhuǎn)化、抽象資源庫、異構(gòu)資源適配等,打造多元產(chǎn)業(yè)生態(tài)。
(2)異構(gòu)資源池化。
針對異構(gòu)資源進行適配,包括異構(gòu)硬件設(shè)備發(fā)現(xiàn)、計算資源的虛擬化和內(nèi)存資源的虛擬化技術(shù)。納管異構(gòu)資源池,主要包括硬件設(shè)備發(fā)現(xiàn)后自動納管、異構(gòu)資源生命周期管理、近端與遠端資源池的多層級智能調(diào)度、多租戶多任務(wù)資源隔離,以及跨架構(gòu)數(shù)據(jù)傳輸和轉(zhuǎn)換等,共建多樣性算力產(chǎn)業(yè)體系。
(3)內(nèi)存一致性池化。
基于硬件內(nèi)存一致性協(xié)議保證不同節(jié)點對內(nèi)存數(shù)據(jù)的訪問一致性,并基于虛擬化層軟件協(xié)議構(gòu)建節(jié)點間共享的內(nèi)存集合,以實現(xiàn)內(nèi)存分配和管理,提供高效的內(nèi)存分配和回收機制,提升資源利用效率。
(4)輕量級虛擬化。
針對傳統(tǒng)虛擬化無法滿足邊緣計算、云原生 Serverless、網(wǎng)絡(luò)云化等場景需求的問題,研究容器、安全容器、輕量級虛擬機、應(yīng)用程序級沙箱等技術(shù),針對不同場景對安全和性能的個性化要求裁剪虛擬化層,實現(xiàn)應(yīng)用快速啟動和高密度部署。
4.2 面向業(yè)務(wù)感知的智能協(xié)同調(diào)度
面向業(yè)務(wù)感知的智能協(xié)同調(diào)度是連接上層多類型應(yīng)用與底層物理設(shè)備的核心能力,能夠滿足上層不同類型應(yīng)用對資源的多樣化需求,從而使上層應(yīng)用更高效、更便捷地利用底層資源。在具體技術(shù)上,面向業(yè)務(wù)感知的智能協(xié)同調(diào)度將重點考慮算力資源全局調(diào)度、自適應(yīng)智能規(guī)劃和調(diào)度策略和云網(wǎng)切片端到端一體化調(diào)度等技術(shù)。
(1)算力資源全局調(diào)度。
分布式云推動算力資源全局調(diào)度、智能協(xié)同,實現(xiàn)算力調(diào)度跨域融合,實現(xiàn)資源在云側(cè)、邊側(cè)、終端側(cè)高效分布和智能協(xié)同,逐步演變出基于云、邊、端的分布式操作系統(tǒng),面向業(yè)務(wù)需求實現(xiàn)跨地域、跨層級算力資源的互聯(lián)互通,具備多層級算力資源的統(tǒng)一管理、智能調(diào)度、全局優(yōu)化能力。
(2)自適應(yīng)智能規(guī)劃和調(diào)度策略。
由于百萬級大規(guī)模異構(gòu)資源中存在異構(gòu)資源間的交互程度不高,匹配復(fù)雜度高,調(diào)整后均衡性難以保證,業(yè)務(wù)特性考慮不足等問題,因此資源的供給方式從提供固定規(guī)格計算資源的形式走向面向具體業(yè)務(wù)場景靈活調(diào)整資源使用量的方式。多種基于 AI 模型乃至大模型的學(xué)習(xí)方法可基于訓(xùn)練模型針對業(yè)務(wù)需求設(shè)計和生成自適應(yīng)智能規(guī)劃和調(diào)度策略,以提升大規(guī)模資源的調(diào)度優(yōu)越性。針對業(yè)務(wù)特性研究資源配額、共享超分、負載均衡等資源調(diào)度策略,實現(xiàn)面向業(yè)務(wù)服務(wù)等級協(xié)議(Service Level Agreement,SLA)、 服 務(wù) 等 級 目 標(biāo)(Service Level Objective,SLO)、 服 務(wù) 等 級 指 標(biāo)(Services Level Indicator,SLI)的多級調(diào)度、拓撲感知調(diào)度、在離線業(yè)務(wù)混布等,從而最大化資源利用率。
(3)云網(wǎng)切片端到端一體化調(diào)度。
云網(wǎng)切片是在網(wǎng)絡(luò)切片的基礎(chǔ)上,充分考慮云資源的彈性、伸縮等特性,根據(jù)不同的業(yè)務(wù)所需的網(wǎng)絡(luò)特征、不同的流量流向所產(chǎn)生的網(wǎng)絡(luò)實時需求及云資源的動態(tài)變化情況,將云資源與網(wǎng)絡(luò)資源進行協(xié)同一體化管理、調(diào)度與優(yōu)化,實現(xiàn)云網(wǎng)資源的端到端統(tǒng)一、隔離預(yù)留、云網(wǎng)連接的自動化建立與優(yōu)化、云網(wǎng)服務(wù)能力的自動化供給等。
5
結(jié)? 語
隨著新一輪的市場推動和產(chǎn)業(yè)變革,云計算技術(shù)向下一代演進,催生構(gòu)建下一代云計算目標(biāo)體系架構(gòu)。下一代云計算承載通算、智算、超算、網(wǎng)算多元業(yè)務(wù)類型,伴隨云基礎(chǔ)設(shè)施、云平臺、云服務(wù)體系、云運維方面體系架構(gòu)的創(chuàng)新,呈現(xiàn)出高效能、廣分布、超大規(guī)模、智能敏捷和智能自治的新時代特征。以通智異構(gòu)算力融合、全域互聯(lián)新型網(wǎng)絡(luò)、新型存儲、資源統(tǒng)一納管、智能協(xié)同調(diào)度為技術(shù)指引,促進云計算向新一代演進。