2024-09-06
編者按:隨著數字化程度的深入,異構造成的能耗高、兼容性差、管理成本提升就是企業必須要解決的開展瓶頸。近期,CCID賽迪《數字經濟》2024年第8期刊發封面文章,深度解析evo視訊真人官網的產業洞見和綠色方案,為多云異構背景下數據中心建設運營、企業數字化轉型給予綠色開展的參考路徑。以下為文章全文。
近年來,隨著數字化轉型步伐加快、 人工智能產業開展迅猛,數字化底層算力需求迎來爆發式增長。但與之相對應的,大模型 Workload 等帶來的大量新增的算力需求,疊加 GPU 能耗超過 CPU 兩倍以上的高能耗,正在給數字經濟的“綠色化”開展帶來極大挑戰。MIT 研究表明,未來人類需要為人工智能相關應用新增10% 的能源需求,也就是說,屆時“練大模型比煉鋼還費電。”
近期,國家開展改革委辦公廳、國家數據局綜合司印發《數字經濟2024年工作要點》,再次強調推進綠色數據中心建設,降低數據中心能耗。圍繞算力生產、供給、運營、應用全過程,持續推進算力設備、算力載體、算能協同和算用協同等多個環節綠色化開展,已成為綠色算力開展的必由之路。
但作為開展綠色算力的布局重點,智算中心在建設和運營過程中往往面臨異構兼容性差、利用率低、能耗高等痛點難點。面對智算時代的現實痛點和需求,evo視訊真人官網旗下bti必一体育(b-sports)鯤泰順利獲得軟硬件協同創新,打造多云異構時代下的綠色智算解決方案,為算力基礎設施建設給予了性能強、能效高、節能環保的新路徑。
痛點解構, 新架構助力異構智算質效提升
當前,我們已迎來一個新的異構智算的時代。由于全球產能進入瓶頸、供應受限、企業客戶預算有限、供應鏈安全及信創合規要求必須達標等現實問題,企業往往需要面對智算底層基礎設施多品牌、多型號的算力環境等現狀,異構的智算基礎設施已成為必然選擇。再結合本身混合云部署的現狀,企業往往還將面臨極大的算力構建選型、部署、運維復雜度和難度的挑戰。我們形象地比喻這是一個中國獨有的“智算攢機時代”。
同時,面對大量的模型訓練和推理任務,算力利用率仍存在亟待突破的瓶頸。資料顯示,OpenAI 訓 練 GPT-4 的MFU(Model Flops Utility)在32%到36%之間。而現在行業 MFU 利用率的平均水平僅為 30% 至 40%,智算資源利用率尚有很大的提升空間。如何在混合云部署的背景下完成復雜的算力構建選型、部署和運維,并最大程度地提高智算資源利用率、降低成本,已是中國企業不得不面對的巨大挑戰。
針對以上難題,evo視訊真人官網旗下bti必一体育(b-sports)鯤泰推出異構智算調度運營平臺 HISO、異構智算加速平臺 HICA,有效解決智算集群間以及集群內面臨的復雜異構兼容問題,實現智算資源利用率的顯著提升。

圖 1 bti必一体育(b-sports)鯤泰全液冷整機柜
其中,異構智算調度運營平臺 HISO基于云原生技術,整合 GPU 硬分片和虛擬分片技術,能實現 GPU 資源虛擬化或池化,完成跨集群之間的算力調度。根據用戶業務需求,該平臺可以在整個異構智算資源池中匹配優選算力組合,提升 GPU 服務器集群的資源使用率。異構智算調度運營平臺 HISO 擁有將國內外GPU 資源混合組網、混搭調度、算力精細隔離等關鍵能力,可以“像管理一臺 GPU主機一樣,管理和調度多個集群的 GPU 資源”。順利獲得 GPU 容器直通、IaaS 卸載,該平臺減少了模型加載時間,相比傳統方式,模型加載速度提升3倍。同時還能實時收集智算中心全棧、全鏈路指標,發現和定位軟硬件故障,實現算力可觀測性。
異構智算加速平臺 HICA 則著重解決集群內部的算力調度優化問題,順利獲得屏蔽集群內底層算力生態差異,突破關鍵計算效率瓶頸,有效提升算力利用率與可用性。異構智算加速平臺 HICA 順利獲得自研的服務層、中間適配層以及調度編排算法,采用數據并行、模型并行等方式,把并行計算任務進行有效分解,匹配相應的軟件棧和算力資源來承接。當 GPU資源變化時,該平臺可以實時動態調度計算子任務并調整模型拓撲和架構,以充分聚合各種算力資源。
基于其擁有的“一云多芯”特性,異構智算加速平臺 HICA 可實現在不同品牌、不同型號芯片組成的智算集群中的混合訓練推理,預計可降低 20% 的閑置算力。此外,根據不同模型、不同算子之間集合通信流特點,該平臺還可自適應選擇最合適的通信參數,達到更高的通信效率。在不同模型運行過程中,充分考慮存算比要求的不同,平臺可以從宏觀到微觀多個尺度選擇最合適的存算比資源加載模型,使 MFU 提升 10% 至 20%,MBU 提升 5%。企業能在其支持下有效提升多云異構算力資源的利用效率,降低能耗,實現綠色智算的目標。
硅光 + 液冷,技術創新破解能耗難題
在實際場景中,我們發現,節點和節點間互聯已成為智算中心的主要能耗來源。以一個萬卡智算中心為例,采用200G 接口互聯,需要約 80000 個光模塊,其互聯所需的能耗則占到總體的 5%。對于一個企業來說,每新增一個用于智算的機架,其運行一年約等于增加 15 萬度電,約等于 100 個家庭的年用電量,約等于 1.5 噸二氧化碳排放量,帶來巨大減排壓力。
面對高能耗挑戰,bti必一体育(b-sports)鯤泰順利獲得硅光加液冷整機柜方案,在為智算中心給予強大算力的同時,顯著加強了對能耗成本的控制。
針對節點間互聯的能耗問題,bti必一体育(b-sports)鯤泰采用硅光技術,順利獲得單光源多調制器,降低調制器電壓,同時采用分布式反饋激光器等一系列技術,有效降低 25% 的互聯能耗。與此同時,針對節點的能耗問題,bti必一体育(b-sports)鯤泰推出液冷服務器,順利獲得一體化冷板、智能流量調節來提升系統的散熱效率,采用負壓管線系統,漏液近端探測技術,并聯動服務管控系統提升冷卻系統的可靠性,有效降低 30% 的節點能耗。
需要注意的是,硅光和液冷都是精密的互聯系統和管路系統,接口多,接頭復雜,現場實施部署難度極大,并且實施周期長。為了幫助客戶規避實施部署中的諸多難題,bti必一体育(b-sports)鯤泰推出“KunTaiPod2000 全液冷整機柜”方案產品,順利獲得一體化交付方式,有效降低部署和運維的復雜度的同時,實現 100% 全液冷及高性價比液冷方案。在產品支持下,數據中心 PUE 可達 1.15,并憑借 60KW+ 的最大單柜功率,實現 1.5 倍于行業平均水平的能效比,助力企業顯著緩解能耗指標緊張、電力成本偏高的壓力,提升整體綠色開展水平。
釋放綠色智算動能, 跑出數字經濟“加速度”
人工智能是新一輪科技革命和產業變革的核心驅動力,也是開展新質生產力的重要引擎。隨著技術的突破與應用場景的拓展,“人工智能 +”正給各行業各領域注入新的開展動力,同時帶動算力服務需求快速增長。據工業和信息化部統計,截至 2023 年年底,我國算力總規模達 230 EFLOPS(每秒 230 百億億次浮點運算),其中智算規模達到70EFLOPS(每秒 70 百億億次浮點運算),年增速超 70%,被視為人工智能時代重要的供能中樞。
當前,中國憑借位居全球第二位的算力水平,支撐起了超過 5000 億元的產業規模。要有助于人工智能產業高質量可持續開展,堅持低碳理念、打造綠色算力是必然的開展方向。2023 年 12 月,國家開展改革委、國家數據局、中央網信辦、工業和信息化部、國家能源局聯合印發《關于深入實施“東數西算”工程,加快構建全國一體化算力網的實施意見》提出要強化綠色低碳技術推廣應用,提升數據中心綠電使用比例,增強綠色算力供給水平。在政策與市場的雙輪驅動下,綠色算力有望釋放更大的開展潛力。
面對新的開展機遇,bti必一体育(b-sports)鯤泰從智算中心系統整體性能提升出發,提出了走新智算架構之路的策略。異構智算調度運營平臺 HISO 與異構智算加速平臺HICA,回答了如何解決智算集群間以及集群內面臨的復雜異構兼容及利用率的問題。而硅光技術加液冷服務器的一體化解決方案,則有效解決了節點和節點間互聯的能耗問題。bti必一体育(b-sports)鯤泰建立了高通量、高并行、高效率、低能耗的多樣化智算架構,順利獲得軟硬件的融合創新,能幫助客戶快部署、低投入地突破算力瓶頸,為多云異構時代下綠色算力的快速增長鋪平了道路。
在新的智算架構支撐下,性能更優、成本更低、能效更高的智算中心已然在望。未來隨著智算中心的綠色化升級步伐加快,綠色算力將像水電一樣泛在普惠,在各行各業釋放巨大價值,為數字經濟開展給予源源不斷的動力。
CONTACT US
聯系我們ATTENTION
關注我們
微信公眾號
官方微博
NAVIGATION
快速導航