中國信通院云計算與大數(shù)據(jù)研究所副所長栗蔚以《從算力互聯(lián)互通到算力互聯(lián)網(wǎng)探索》為題,對中國信通院在算力互聯(lián)互通領域的研究成果進行介紹。

算力互聯(lián)互通是必然趨勢
《數(shù)字中國建設整體布局規(guī)劃》中強調(diào),“系統(tǒng)優(yōu)化算力基礎設施布局,促進東西部算力高效互補和協(xié)同聯(lián)動。”!蛾P于加快構(gòu)建全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導意見》提出,“支持開展全國性算力資源調(diào)度,加快建立完善云資源接入和一體化調(diào)度機制。”
栗蔚表示,構(gòu)建算力互聯(lián)互通體系,是落實中央國務院部署的重要舉措,也是信息通信高質(zhì)量發(fā)展的現(xiàn)實需求。
據(jù)了解,算力互聯(lián)互通是指以算力任務為流動要素,對算力資源進行感知匯聚,通過算網(wǎng)一體調(diào)度,實現(xiàn)算力基礎設施間架構(gòu)互通,高速互聯(lián),有效提高算力資源綜合利用水平,推動經(jīng)濟社會高質(zhì)量發(fā)展。
“當前,算力互聯(lián)互通已成為信息通信產(chǎn)業(yè)發(fā)展的必然趨勢。”栗蔚介紹,在國際上,美國能源局發(fā)布了高性能數(shù)據(jù)基礎設施(HPDF)計劃,要求實現(xiàn)東西部海岸40多個機構(gòu)算力互聯(lián)互通;在國內(nèi),不管是地方政府還是服務商都推出了算力交易、算力服務、算力調(diào)度等產(chǎn)業(yè)生態(tài)創(chuàng)新。
從不同應用場景看,也對算力互聯(lián)互通提出不同需求。以大模型訓練場景為例,目前存在智算服務商20余家開發(fā)生態(tài)不統(tǒng)一,高性能算力大數(shù)據(jù)量傳輸速度與國際先進水平差距在數(shù)十倍,算網(wǎng)云協(xié)同調(diào)度缺少統(tǒng)一操作系統(tǒng)等痛點。因此在算力原子層(GPU、CPU等模塊)需要算網(wǎng)云操作系統(tǒng)實現(xiàn)架構(gòu)互通、高速互聯(lián)。
另外在資源層面,也就是東數(shù)西算應用場景,如果想要實現(xiàn)算力真正的像水電一樣服務,用戶就需要一點接入、全算貫通。不過目前存在服務商數(shù)量多,各自為戰(zhàn);算力架構(gòu)種類多,接口不開放;算網(wǎng)調(diào)度能力弱等痛點。因此在算力資源層需要一個類似域名的公共平臺實現(xiàn)算力標識感知、算網(wǎng)資源解析、一體化調(diào)度。
“三位一體”實現(xiàn)互聯(lián)互通
面對算力互聯(lián)互通的需求和挑戰(zhàn),業(yè)界提出算力互聯(lián)互通五層模型,在以太網(wǎng)層、算力網(wǎng)絡層之上,還有算力原子層、算力資源層、業(yè)務數(shù)據(jù)層。如何實現(xiàn)互聯(lián)互通?栗蔚介紹,中國信通院提出標準、算網(wǎng)云開源操作系統(tǒng)(CNCOS)和算力互聯(lián)互通平臺,“三位一體”的實現(xiàn)路徑。
標準層面,規(guī)劃了三個大類的十項標準。總體功能部分,包括總體框架、網(wǎng)絡互聯(lián)、算力調(diào)度、業(yè)務互通、數(shù)據(jù)流動;算力資源層部分,包括算力標識、度量計量;算力原子層部分,包括高性能算力服務遠程直接內(nèi)存訪問(RDMA)技術(shù)、GPU架構(gòu)互通、DPU架構(gòu)互通。
栗蔚表示,在標準基礎上,通過算網(wǎng)云開源操作系統(tǒng)CNCOS,把標準進行開源實現(xiàn)、技術(shù)落地。OpenCNC調(diào)度系統(tǒng)對應算力資源層應用,ODPU、oneRDMA和OGPU三個系統(tǒng),對應算力原子層的標準實踐落地。
OpenCNC 1.0版本可以實現(xiàn)算力標識注冊、算網(wǎng)參數(shù)調(diào)度、身份認證管理、統(tǒng)一計費度量等關鍵能力。該項目由中國信通院牽頭,以算網(wǎng)云開放社區(qū)為橋梁,建立算力互聯(lián)互通質(zhì)量保障基礎,支撐算力互聯(lián)互通體系持續(xù)優(yōu)化發(fā)展。
ODPU開發(fā)框架1.0在DPU管理、計算卸載、存儲卸載、網(wǎng)絡卸載、安全卸載和RDMA支持等維度基于產(chǎn)業(yè)共識形成標準。OGPU1.0開發(fā)框架的目標是打造統(tǒng)一GPU開發(fā)接口,納入各廠商的編程接口。oneRDMA1.0將實現(xiàn)國內(nèi)統(tǒng)一的高性能算力服務遠程直接內(nèi)存訪問(RDMA)通信協(xié)議,兼容封裝層統(tǒng)一接入標準。
與此同時,算力互聯(lián)互通平臺方面,通過提供算力注冊感知、算網(wǎng)參數(shù)調(diào)度、身份認證管理、統(tǒng)一計費度量等至公共服務,構(gòu)建架構(gòu)互通、高速互聯(lián)的標準化環(huán)境,降低算力服務商間算力互聯(lián)互通成本,實現(xiàn)用戶“一點接入,全算貫通”,提高算力任務流動和數(shù)據(jù)傳輸效率。
最后,栗蔚提出了對算力互聯(lián)網(wǎng)的初步設想,并期待未來能夠與產(chǎn)業(yè)各界共同探討算力互聯(lián)網(wǎng)五要素、分層模型及高性能算力服務遠程內(nèi)存直接訪問(RDMA)技術(shù),并驗證通過算網(wǎng)云開源操作系統(tǒng)(CNCOS)及算力互通平臺實現(xiàn)算力互聯(lián)網(wǎng)工程化落地的可行性。