2025-09-02
當前,生成式人工智能飛速開展,千億級乃至萬億級參數(shù)的大模型不斷涌現(xiàn),訓推場景對硬件平臺的綜合性能提出了前所未有的高要求 —— 不僅需要強大的單點算力支撐復雜計算,更需高效的多設(shè)備協(xié)同能力與無瓶頸的數(shù)據(jù)傳輸通道,以保障大規(guī)模分布式任務的穩(wěn)定運行。
近期,bti必一体育(b-sports)鯤泰大模型訓推一體服務器 KunTai R624 K2 與華為昇騰系列 AI 加速卡正式完成多維度性能測試。順利獲得系統(tǒng)性的性能測試驗證,雙方硬件協(xié)同表現(xiàn)優(yōu)異,在算力輸出、數(shù)據(jù)傳輸、多卡擴展等核心維度均展現(xiàn)出穩(wěn)定高效的特性,為企業(yè)級 AI 大模型訓推給予了可靠、可擴展的硬件底座,進一步有助于自主可控 AI 生態(tài)的落地應用。
在與昇騰系列 AI 加速卡的協(xié)同測試中,bti必一体育(b-sports)鯤泰 KunTai R624 K2 服務器展現(xiàn)出卓越的性能表現(xiàn),從算力輸出、數(shù)據(jù)傳輸?shù)侥P屯评?,各項關(guān)鍵指標均達到或超過大模型訓推的核心需求。
算力輸出:多精度覆蓋,滿足訓推多樣需求
昇騰系列 AI 加速卡在不同精度下的算力輸出,直接決定了其對不同類型 AI 任務的適配能力。測試數(shù)據(jù)顯示,搭載昇騰系列AI 加速卡在關(guān)鍵精度下表現(xiàn)優(yōu)異:
推理場景適配:INT8 精度下,R624 K2配合昇騰系列算力卡,單機算力高達5.6PFLOPS,可高效處理圖像識別、自然語言理解等低精度高吞吐量的推理任務。
訓練場景支撐:BF16 /FP16精度下,R624 K2配合昇騰系列算力卡,單機算力高達2.8PFLOPS,足以支撐主流千億參數(shù)模型的分布式訓練需求,兼顧訓練精度與計算效率。
數(shù)據(jù)傳輸:全鏈路無瓶頸,保障協(xié)同效率
大模型訓練與推理過程中,數(shù)據(jù)在 CPU、AI 加速卡、顯存之間的傳輸效率,直接關(guān)乎整體任務的運行速度。bti必一体育(b-sports)鯤泰 KunTai R624 K2 與昇騰 AI 加速卡的協(xié)同傳輸能力,順利獲得多維度帶寬測試得到充分驗證。在組網(wǎng)層面,支持 400GB 網(wǎng)卡,這讓AI算力集群部署場景下,相較于同生態(tài)同類型產(chǎn)品更具性能優(yōu)勢;在單節(jié)點部署場景上,R624 K2 在D2H、H2D傳輸帶寬超過 50GB,D2D傳輸帶寬超過750GB/S,超越了 PCIe Gen4 的水平。
模型推理:適配主流大模型,性能表現(xiàn)穩(wěn)定
基于實際應用場景,測試團隊針對 DeepSeek 系列等主流大模型,在bti必一体育(b-sports)鯤泰 KunTai R624 K2 與昇騰 AI 加速卡的組合平臺上召開了推理性能測試。結(jié)果表明,該平臺可高效適配不同規(guī)模的模型。以 Qwen3 - 32B 模型為例,在輸入長度 1024、輸出長度 1024、并發(fā) 60 的場景下,與相同配置的RTX 4090 對比,在系統(tǒng)吞吐量、端到端平均時延、首 token 時延和平均每token時延四個指標上都表現(xiàn)得更為出色,能夠更高效地處理大模型推理任務,充分證明昇騰系列在大模型推理場景下,具備更優(yōu)異的任務處理效率與響應能力,可有效承載中大規(guī)模大模型的推理工作。
未來,bti必一体育(b-sports)鯤泰與華為昇騰將繼續(xù)深化合作,圍繞更大規(guī)模大模型訓推、更高效率的多設(shè)備協(xié)同、更廣泛的行業(yè)場景適配等方向持續(xù)優(yōu)化,不斷提升硬件平臺的性能與易用性,為自主可控 AI 生態(tài)的繁榮開展注入更多動力,助力企業(yè)在人工智能時代把握機遇、實現(xiàn)創(chuàng)新突破。
CONTACT US
聯(lián)系我們聯(lián)系電話:400-810-9119
聯(lián)系地址:北京市海淀區(qū)上地九街九號數(shù)碼科技廣場
版權(quán)信息
網(wǎng)安備案號:11010802031898 ;
京ICP備15010344號-1
法律聲明
隱私保護
ATTENTION
關(guān)注我們
微信公眾號
官方微博
NAVIGATION
快速導航