云提供商正在組建GPU大軍,以提供更多的人工智能“火力”。在剛剛舉行的谷歌I/O開發者年度大會上,谷歌宣布了一款擁有26000 GPU的人工智能超級計算機。計算引擎A3超級計算機再次證明,在與微軟爭奪人工智能霸主地位的戰斗中,谷歌正在投入更多資源進行積極的反攻。
(資料圖片)
這臺超級計算機擁有大約26000個英偉達H100 Hopper GPU。作為參考,世界上速度最快的超級計算機Frontier擁有37000個AMD Instinct 250X GPU。
4月,英偉達首席執行官黃仁勛(Jensen Huang)展示了帶有8個H100 Hopper GPU的英偉達DGX H100系統底板。
谷歌發言人在一封電子郵件中表示:“對于我們最大的客戶,我們可以在一個集群中建造多達26000個GPU的A3超級計算機,并正在努力在我們最大的地區建造多個集群。”并補充道,“并不是我們所有節點都會擴大到這么大的規模。”
該系統是在加利福尼亞州山景城舉行的谷歌I/O開發者大會上宣布的。開發者大會已經成為谷歌許多人工智能軟件和硬件能力的展示。在微軟將OpenAI技術應用于必應搜索和辦公軟件應用程序后,谷歌加快了人工智能的發展。
這臺超級計算機的目標客戶是希望訓練大型語言模型(LLM)的客戶。許多云提供商現在正在部署H100 GPU,英偉達在3月份推出了自己的DGX云服務,與租用上一代A100 GPU相比,這項服務非常昂貴。
谷歌表示,A3超級計算機是對使用英偉達A100 GPU的現有A2虛擬機提供的計算資源的重大升級。谷歌正在將所有分布在各地的A3計算實例集中到一臺超級計算機中。
谷歌董事Roy Kim和產品經理Chris Kleban在一篇博客文章中表示:“A3超級計算機的規模提供了高達26 exaflops的人工智能性能,這大大提高了訓練大型機器學習模型的時間和成本。”exaflops性能指標被用來估計人工智能計算機的基準性能。
GPU的數量已成為云提供商推廣其人工智能計算服務的重要名片和指標。微軟在Azure中的人工智能超級計算機與OpenAI合作構建,擁有28.5萬個CPU核心和1萬個GPU。微軟還宣布了其下一代人工智能超級計算機,該計算機擁有更多的GPU。Oracle的云服務提供了對512個GPU集群的訪問,并正在開發新技術來提高GPU間的通信速度。
谷歌一直在炒作其TPU v4人工智能芯片,這些芯片正被用來運行LLM的內部人工智能應用程序,例如谷歌的Bard產品。谷歌的人工智能子公司DeepMind表示,快速TPU(張量處理器)正在指導通用和科學應用的人工智能開發。
相比之下,谷歌的A3超級計算機用途廣泛,可以適應各種人工智能應用和LLM。Kim和Kleban在博客文章中表示:“鑒于這些工作負載的高需求,一刀切的方法是不夠的——你需要專門為人工智能構建的基礎設施。”
盡管谷歌非常喜歡其TPU,但鑒于客戶正在用CUDA編寫人工智能應用程序,英偉達的GPU已成為云提供商的必需品。CUDA是英偉達專有的并行編程模型,該軟件工具包基于H100專業的人工智能和圖形核心提供的加速度生成最快的結果。
客戶可以通過A3虛擬機運行人工智能應用程序,并通過Vertex AI、谷歌Kubernetes引擎和谷歌計算引擎服務使用谷歌的人工智能開發和管理服務。
谷歌的A3超級計算機融合了各種技術,以提高GPU到GPU的通信和網絡性能。A3虛擬機基于英特爾第四代至強(Xeon)芯片(代號Sapphire Rapids),該芯片與H100 GPU一起封裝。目前尚不清楚虛擬機中的虛擬CPU是否會支持Sapphire Rapids芯片中內置的推理加速器。虛擬機配有DDR5內存。
在英偉達H100上的訓練模型比其上一代A100 GPU更快、更便宜,后者已在云中廣泛可用。人工智能服務公司MosaicML的一項研究發現,H100在其70億參數的MosaicGPT大型語言模型上“比NVIDIA A100高30%的成本效益和3倍的速度”。
H100也可以推理,但考慮到H100提供的處理能力,可能會被認為是過度使用。谷歌云提供英偉達的L4 GPU用于推理,英特爾在其Sapphire Rapids CPU中也有推理加速器。
谷歌的Kim和Kleban表示:“A3虛擬機也非常適合推理工作負載,與A2虛擬機的A100 GPU相比,推理性能提高了30倍。”
A3虛擬機是第一個通過名為Mount Evans的基礎設施處理單元(IPU)連接GPU實例的虛擬機。IPU由谷歌和英特爾聯合開發,其允許A3虛擬機減輕傳統上在虛擬CPU上完成的網絡、存儲管理和安全功能的工作負荷。IPU允許以200Gbps的速度進行數據傳輸。
谷歌高管在一篇博客文章中表示:“A3是第一個使用我們定制設計的200Gbps IPU的GPU實例,GPU到GPU的數據傳輸繞過CPU主機,通過與其他虛擬機網絡和數據流量分離的接口傳輸。與A2虛擬機相比,這使網絡帶寬增加了10倍,具有低延遲和高帶寬穩定性。”
IPU的吞吐量可能很快就會受到微軟的挑戰,微軟即將推出的搭載英偉達H100 GPU的人工智能超級計算機將具有芯片制造商Quantum-2 400Gbps的網絡能力。微軟尚未透露其下一代人工智能超級計算機中H100 GPU的數量。
A3超級計算機建立在該公司Jupiter數據中心網絡結構的主干上,該網絡結構通過光纖連接地理位置不同的GPU集群。
關鍵詞: