Supermicro NVIDIA Large language models 大型語言模型 LLM 基礎架構 GPU 硬體

全堆疊結構式SuperCluster超級運算叢集包含氣冷、液冷訓練與雲端級推論機櫃配置,並搭載最新型NVIDIA Tensor Core GPU、網路技術與NVIDIA AI Enterprise軟體

Supermicro 推出從企業規模擴大至 LLM 硬體基礎架構

2024-03-25
Supermicro宣布推出其最新產品組合,加速生成式AI部署。Supermicro SuperCluster解決方案能為現今及未來大型語言模型(Large Language Model,LLM)硬體基礎設施提供核心建構組件。

Supermicro三款強大的SuperCluster解決方案現已上市並可被用於生成式AI工作運行。這些解決方案內的4U液冷系統或8U氣冷系統是專為強大LLM訓練性能以及高度批次大小且大量的LLM推論所設計。配備了1U氣冷Supermicro NVIDIA MGXTM系統的第三款SuperCluster超級叢集則針對雲端級推論進行了最佳化。

Supermicro總裁暨執行長梁見後表示,在AI時代,運算力單位是以叢集來衡量,不再只用伺服器數量作為依據。Supermicro的全球製造產能已擴大到每月5,000台機櫃,能比以往更快地為客戶提供完整生成式AI運算叢集。只需透過採用400Gb/s NVIDIA Quantum-2 InfiniBand和Spectrum-X Ethernet網路技術的數個可擴充型叢集建構組件,一個64節點的運算叢集能支援具有72TB HBM3e的512個NVIDIA HGX H200 GPU。結合了NVIDIA AI Enterprise軟體的Supermicro SuperCluster解決方案非常適合用於針對現今企業與雲端基礎架構的LLM訓練,且最高可達兆級參數。互連的GPU、CPU、記憶體、儲存、以及網路硬體在被部署至機櫃內的多個節點後形成現今AI技術的基礎。Supermicro的SuperCluster解決方案為快速發展的生成式AI與LLM提供了核心建構組件。

NVIDIA GPU產品部門副總裁Kaustubh Sanghani則表示,NVIDIA最新型GPU、CPU、網路與軟體技術助力能讓系統製造者為全球市場內不同類型的下一代AI工作運行實現加速。透過結合基於Blackwell架構產品的NVIDIA加速運算平台,Supermicro能提供客戶所需要的前沿伺服器系統,且這些系統可容易地被部署至資料中心。

Supermicro 4U NVIDIA HGX H100/H200 8-GPU系統透過液冷技術使8U氣冷系統運算密度加倍,同時降低能耗量與總體擁有成本(TCO)。這些系統旨在為了支援下一代NVIDIA的Blackwell架構GPU。Supermicro冷卻分配單元(Cooling Distribution Unit,CDU)與冷卻分配分流管(Cooling Distribution Manifold,CDM)是主要冷卻液流動脈絡,可將冷卻液輸送至Supermicro定製的直達晶片(Direct-to-Chip,D2C)冷板,使GPU和CPU處於最佳運行溫度,進而實現效能最大化。此散熱技術可使一整座資料中心電力成本降低最多40%,同時節省資料中心占地空間。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!