谷歌推出專注于人工智能的“A3”超級計算機，擁有26000個GPU

2023-05-21 18:15:11 來源：AI時代前沿

云提供商正在組建GPU大軍，以提供更多的人工智能“火力”。在剛剛舉行的谷歌I/O開發者年度大會上，谷歌宣布了一款擁有26000 GPU的人工智能超級計算機。計算引擎A3超級計算機再次證明，在與微軟爭奪人工智能霸主地位的戰斗中，谷歌正在投入更多資源進行積極的反攻。

(資料圖片)

這臺超級計算機擁有大約26000個英偉達H100 Hopper GPU。作為參考，世界上速度最快的超級計算機Frontier擁有37000個AMD Instinct 250X GPU。

4月，英偉達首席執行官黃仁勛（Jensen Huang）展示了帶有8個H100 Hopper GPU的英偉達DGX H100系統底板。

谷歌發言人在一封電子郵件中表示：“對于我們最大的客戶，我們可以在一個集群中建造多達26000個GPU的A3超級計算機，并正在努力在我們最大的地區建造多個集群。”并補充道，“并不是我們所有節點都會擴大到這么大的規模。”

該系統是在加利福尼亞州山景城舉行的谷歌I/O開發者大會上宣布的。開發者大會已經成為谷歌許多人工智能軟件和硬件能力的展示。在微軟將OpenAI技術應用于必應搜索和辦公軟件應用程序后，谷歌加快了人工智能的發展。

這臺超級計算機的目標客戶是希望訓練大型語言模型（LLM）的客戶。許多云提供商現在正在部署H100 GPU，英偉達在3月份推出了自己的DGX云服務，與租用上一代A100 GPU相比，這項服務非常昂貴。

谷歌表示，A3超級計算機是對使用英偉達A100 GPU的現有A2虛擬機提供的計算資源的重大升級。谷歌正在將所有分布在各地的A3計算實例集中到一臺超級計算機中。

谷歌董事Roy Kim和產品經理Chris Kleban在一篇博客文章中表示：“A3超級計算機的規模提供了高達26 exaflops的人工智能性能，這大大提高了訓練大型機器學習模型的時間和成本。”exaflops性能指標被用來估計人工智能計算機的基準性能。

GPU的數量已成為云提供商推廣其人工智能計算服務的重要名片和指標。微軟在Azure中的人工智能超級計算機與OpenAI合作構建，擁有28.5萬個CPU核心和1萬個GPU。微軟還宣布了其下一代人工智能超級計算機，該計算機擁有更多的GPU。Oracle的云服務提供了對512個GPU集群的訪問，并正在開發新技術來提高GPU間的通信速度。

谷歌一直在炒作其TPU v4人工智能芯片，這些芯片正被用來運行LLM的內部人工智能應用程序，例如谷歌的Bard產品。谷歌的人工智能子公司DeepMind表示，快速TPU（張量處理器）正在指導通用和科學應用的人工智能開發。

相比之下，谷歌的A3超級計算機用途廣泛，可以適應各種人工智能應用和LLM。Kim和Kleban在博客文章中表示：“鑒于這些工作負載的高需求，一刀切的方法是不夠的——你需要專門為人工智能構建的基礎設施?！?/span>

盡管谷歌非常喜歡其TPU，但鑒于客戶正在用CUDA編寫人工智能應用程序，英偉達的GPU已成為云提供商的必需品。CUDA是英偉達專有的并行編程模型，該軟件工具包基于H100專業的人工智能和圖形核心提供的加速度生成最快的結果。

客戶可以通過A3虛擬機運行人工智能應用程序，并通過Vertex AI、谷歌Kubernetes引擎和谷歌計算引擎服務使用谷歌的人工智能開發和管理服務。

谷歌的A3超級計算機融合了各種技術，以提高GPU到GPU的通信和網絡性能。A3虛擬機基于英特爾第四代至強（Xeon）芯片（代號Sapphire Rapids），該芯片與H100 GPU一起封裝。目前尚不清楚虛擬機中的虛擬CPU是否會支持Sapphire Rapids芯片中內置的推理加速器。虛擬機配有DDR5內存。

在英偉達H100上的訓練模型比其上一代A100 GPU更快、更便宜，后者已在云中廣泛可用。人工智能服務公司MosaicML的一項研究發現，H100在其70億參數的MosaicGPT大型語言模型上“比NVIDIA A100高30%的成本效益和3倍的速度”。

H100也可以推理，但考慮到H100提供的處理能力，可能會被認為是過度使用。谷歌云提供英偉達的L4 GPU用于推理，英特爾在其Sapphire Rapids CPU中也有推理加速器。

谷歌的Kim和Kleban表示：“A3虛擬機也非常適合推理工作負載，與A2虛擬機的A100 GPU相比，推理性能提高了30倍?！?/span>

A3虛擬機是第一個通過名為Mount Evans的基礎設施處理單元（IPU）連接GPU實例的虛擬機。IPU由谷歌和英特爾聯合開發，其允許A3虛擬機減輕傳統上在虛擬CPU上完成的網絡、存儲管理和安全功能的工作負荷。IPU允許以200Gbps的速度進行數據傳輸。

谷歌高管在一篇博客文章中表示：“A3是第一個使用我們定制設計的200Gbps IPU的GPU實例，GPU到GPU的數據傳輸繞過CPU主機，通過與其他虛擬機網絡和數據流量分離的接口傳輸。與A2虛擬機相比，這使網絡帶寬增加了10倍，具有低延遲和高帶寬穩定性?！?/span>

IPU的吞吐量可能很快就會受到微軟的挑戰，微軟即將推出的搭載英偉達H100 GPU的人工智能超級計算機將具有芯片制造商Quantum-2 400Gbps的網絡能力。微軟尚未透露其下一代人工智能超級計算機中H100 GPU的數量。

A3超級計算機建立在該公司Jupiter數據中心網絡結構的主干上，該網絡結構通過光纖連接地理位置不同的GPU集群。

關鍵詞：

欧美夫妻性生活网,免费一区二区三区久久,免费人成激情视频在线观看冫,欧美成人性色xxxx视频

谷歌推出專注于人工智能的“A3”超級計算機，擁有26000個GPU

熱門推薦

熱門文章

全站熱門

欧美夫妻性生活网,免费一区二区三区久久,免费人成激情视频在线观看冫,欧美成人性色xxxx视频

谷歌推出專注于人工智能的“A3”超級計算機，擁有26000個GPU

熱門推薦

熱門文章

全站熱門

谷歌推出專注于人工智能的“A3”超級計算機，擁有26000個GPU