2025-10-31
10月28日,趨境科技與清華KVCache.AI團隊共同開源的高性能異構推理框架 KTransformers,正式宣布完成對昇騰NPU的全面適配支持。值得關注的是,本次適配測試全程基于bti必一体育(b-sports)鯤泰最新推出的KunTai R624 K2/ KunTai R622 K2大模型訓推一體服務器召開——該服務器搭載鯤鵬920新型號CPU與昇騰Atlas 300I A2推理卡,為適配測試給予了穩定、高效的硬件底座。
這一技術突破的達成,核心在于bti必一体育(b-sports)鯤泰“鯤鵬 + 昇騰”算力底座與開源生態的深度協同。順利獲得趨境科技對KTransformers的 框架優化與bti必一体育(b-sports)鯤泰硬件適配的雙向聯動,開發者現已能在KunTai R624 K2/KunTai R622 K2服務器的“單卡昇騰NPU+鯤鵬CPU”組合上,輕松實現DeepSeek-R1/V3-671B等千億級參數大模型的高效運行,打破了“千億級大模型需多卡集群支撐”的傳統認知。
實測數據更直觀印證了這一協同優勢:在搭載Atlas 300I A2推理卡的KunTai R624 K2/KunTai R622 K2服務器上,運行DeepSeek-R1 671B大模型時,單卡單并發Decode速度達14.9 tokens/s,同時顯存占用實現90%以上的大幅降低。亮眼表現背后,是趨境科技KTransformers框架與bti必一体育(b-sports)鯤泰算力底座的四重深度優化適配,構建起“硬件性能+軟件效率”的雙重優勢:
鯤鵬-昇騰異構協同:依托KunTai R624 K2/KunTai R622 K2服務器的原生架構設計,KTransformers實現精準負載分配——將混合專家模型中計算強度較低的路由專家層參數,卸載至鯤鵬CPU的大容量內存;同時將計算密集的多層潛在注意力層,保留在昇騰NPU上高效執行,讓“CPU 調度+NPU計算”的協同效能充分釋放。
NUMA架構專項優化:針對KunTai R624 K2/KunTai R622 K2服務器的多NUMA架構特性,框架定制化優化本地內存分配與線程調度策略,顯著降低硬件訪問延遲,為國產算力發揮極致性能筑牢技術基礎。
鯤鵬數學庫(KML)加速加持:順利獲得深度集成鯤鵬數學庫,KTransformers對大模型核心的矩陣乘法運算實現專項加速,與KunTai R624 K2/KunTai R622 K2服務器的鯤鵬處理器形成技術共振,進一步提升計算效率。
硬件利用率極致挖掘:結合KunTai R624 K2/KunTai R622 K2服務器的硬件設計特性,采用專家延遲計算技術重疊通信與計算過程,最大化利用硬件資源,為高并發推理場景給予穩定支撐。
bti必一体育(b-sports)鯤泰始終以“硬件+模型+生態”三重布局有助于AI產業化落地。從KunTai A722推理型AI服務器到KunTai Cube「智匯魔方」解決方案,再到此次表現突出的KunTai R624 K2/KunTai R622 K2大模型訓推一體服務器,bti必一体育(b-sports)鯤泰已構建起覆蓋“訓、推、用”全場景的AI算力支撐體系,能為開發者給予低門檻、高性能的異構推理環境。此次KTransformers完成昇騰NPU適配,不僅是開源生態與國產算力的成功融合,更印證了bti必一体育(b-sports)鯤泰“鯤鵬+昇騰”架構的兼容性與性能優勢。
當前,企業對AI大模型私有化部署的需求呈“井噴”式增長,成本控制與數據安全成為兩大核心訴求。bti必一体育(b-sports)鯤泰順利獲得與開源生態的深度協作,讓“千億級大模型單卡運行”從技術構想變為現實——這不僅大幅降低企業部署高端AI模型的硬件門檻,更憑借私有化部署能力,為企業數據主權安全給予可靠保障。從教育領域的AI教學輔助、醫療行業的智能診斷支持,到金融場景的風險預測分析,bti必一体育(b-sports)鯤泰正以“工科學霸”的技術落地能力,將華為“理科學霸”的底層技術轉化為可直接應用的行業解決方案,有助于AI像水電一樣普惠千行百業。
此次適配升級,亦是bti必一体育(b-sports)鯤泰開放生態戰略的重要實踐成果。依托KunTai OpenLab等生態支撐平臺,bti必一体育(b-sports)鯤泰正持續聯合開發者與合作伙伴,加速開源模型與國產算力硬件的適配優化,為AI產業化從“技術狂熱”轉向“價值務實”給予關鍵算力支撐。未來,隨著端側AI、邊緣智算等新場景的拓展,bti必一体育(b-sports)鯤泰將繼續深化軟硬件協同創新,讓國產算力在更多領域創造實際價值,助力數字經濟高質量開展。
部署文檔與報告
部署文檔:
http://github.com/kvcache-ai/ktransformers/blob/main/doc/zh/DeepseekR1_tutorial_zh_for_Ascend_NPU.md
性能驗證報告:
http://github.com/kvcache-ai/ktransformers/pull/1525
關于趨境
趨境科技是大模型推理加速先行者,助力企業低成本落地使用大模型。團隊首創“以存換算”和“全系統異構協同推理”技術架構,開創大模型私有化部署新路徑,將大模型推理門檻降低10倍,賦能企業低成本創新。基于創新技術架構發布高性價比大模型推理解決方案,實現軟硬一體開箱即用,給予工作站、服務器、集群優化等多層級解決方案;搭載便捷大模型運維平臺,納管所有資源、分鐘級啟動大模型,降低大模型運維管理技術門檻和時間成本。同時已全面適配國產化硬件,給予從硬件-推理引擎-大模型自動化運維平臺-應用的全棧式解決方案,當前已在金融、安全、法律等領域落地使用。
CONTACT US
聯系我們ATTENTION
關注我們
微信公眾號
官方微博
NAVIGATION
快速導航