當前,“百模大戰”帶來了算力需求的爆發,尤其是以ChatGPT為代表的多模態AI大模型,?其參數規模和訓練數據量均達到了前所未有的規模。?GPT-3.5、?GPT-4等模型的參數規模突破了萬億級別,?訓練數據量達到了TB級別,?這使得大模型訓練成為了一個計算密集型的任務,?對算力的需求極高。?
近日,浪潮計算機重磅推出基于安全架構的訓練型AI服務器NF5698H7,適用于大模型訓練、高性能計算、數據分析等多種應用場景,具有性能卓越、隨需擴展、穩定可靠、維護便捷和智能調節散熱等特點,構建多場景的最強AI創新算力平臺。
高速互聯是大規模算力集群構建的基礎。芯片間、服務器間、集群間的高速互聯、無損網絡能力建設,是支撐千卡、萬卡智能算力集群計算需求的必備條件,大模型的訓練需要融合多種并行策略,對卡間P2P互聯帶寬以及跨節點互聯帶寬提出了更高的要求。浪潮NF5698H7服務器支持8顆創新全互聯OAM加速計算模組,支持高帶寬內存,高速網絡平面,支持12個PCIe4.0擴展槽位,節點間高速互聯擴展,無阻塞帶寬RoCE組網,集群級優化架構設計,實現數據網、存儲網、管理網分離,滿足千億級參數超大模型并行訓練需求。
在產業落地過程中,國內各廠商的加速卡存在硬件接口不統一、互聯協議不統一,同時軟件生態互不兼容的情況,帶來了新型AI加速卡系統適配周期長、定制投入成本高的落地難題,行業亟需更加開放的算力平臺,以及更加多元的算力支撐大模型的訓練。浪潮NF5698H7服務器一機兼容適配國內最新多類型、多品牌AI加速卡,支持DeepSpeed、Megatron等主流分布式AI訓練框架,滿足各種AI應用場景下對異構計算算力的極致需求。針對多元芯片管理和調度難題,NF5698H7兼容適配浪潮AI算力調度平臺——inAIP智算平臺,通過對計算資源、數據資源、深度學習軟件棧資源進行統一管理,簡化AIGC、CV、NLP模型的開發和部署流程,有效提升大模型算力平臺的使用效率,滿足用戶更成熟、易部署、更便捷的開放生態需求。
大模型對算力的巨大需求,帶來了對能源的巨大消耗。據了解,人工智能服務器的功率較普通服務器高6至8倍,訓練大模型所需的能耗是常規云工作的3倍。浪潮NF5698H7服務器采用風道解耦設計,通過智能分層調節散熱,優化散熱性能,相比同級別產品,NF5698H7服務器功耗降低約20%。產品采用12V和54V N+N冗余電源分離供電設計,實現高功耗負載動態匹配,減少電源轉換損耗,賦能企業綠色低碳發展。
目前,浪潮計算機已與國內知名互聯網企業、云廠商、金融機構等眾多行業龍頭企業開展深度合作, 為深度學習模型訓練、深度學習推理、高性能計算、數據分析、圖像視頻、語音識別、金融分析、智能客服等典型應用場景提供了開放、高效、安全的AI算力支撐。未來基于多元化AI服務器,浪潮計算機將持續為大模型的發展創新提供高質量算力底座,助力各行業向數智化高速發展。
關鍵詞: