機器之心報道
機器之心編輯部
收購 Arm 還沒有定論,但英偉達的 Arm 架構 CPU 已經出現了。英特爾現在可能正感受到不一樣的壓力。
「只需一張 GeForce 顯卡,每個學生都可以擁有一臺超級計算機,這正是 Alex Krizhevsky、Ilya 和 Hinton 當年訓練 AI 模型 AlexNet 的方式。通過搭載在超級計算機中的 GPU,我們現在能讓科學家們在 youxian 的一生之中追逐無盡的科學事業,」英偉達創始人兼首席執行官黃仁勛說道。
4 月 12 日晚,英偉達 GTC 2021 大會在線上開始了?;蛟S是因為長期遠程辦公不用出門,人們驚訝地看到在自家廚房講 Keynote 的黃老板居然留了一頭搖滾范的長發:
如果你只是對他的黑色皮衣印象深刻,先對比一下 2019、2020 和 2021 的 GTC,老黃氣質越來越搖滾。如此氣質,黃仁勛今天推出的新產品肯定將會與眾不同。
「這是世界第一款為 terabyte 級別計算設計的 CPU,」在 GTC 大會上,黃仁勛祭出了英偉達的首款中央處理器 Grace,其面向超大型 AI 模型的和高性能計算。
英偉達也要做 CPU 了
Grace 使用相對能耗較低的 Arm 核心,但它又可以為訓練超大 AI 模型的系統提供 10 倍左右的性能提升。英偉達表示,它是超過一萬名工程人員歷經幾年的研發成果,旨在滿足當前世界最先進應用程序的計算需求,其具備的計算性能和吞吐速率是以往任何架構所無法比擬的。
「結合 GPU 和 DPU,Grace 為我們提供了第三種基礎計算能力,并具備重新定義數據中心架構,推進 AI 前進的能力,」黃仁勛說道。
Grace 的名字來自于計算機科學家、世界最早一批的程序員,也是最早的女性程序員之一的格蕾絲 · 赫柏(Grace Hopper)。她創造了現代第一個編譯器 A-0 系統,以及第一個高級商用計算機程序語言「COBOL」。計算機術語「Debug」(調試)便是她在受到從電腦中驅除蛾子的啟發而開始使用的,于是她也被冠以「Debug 之母」的稱號。
英偉達的 Grace 芯片利用 Arm 架構的靈活性,是專為加速計算而設計的 CPU 和服務器架構,可用于訓練具有超過 1 萬億參數的下一代深度學習預訓練模型。在與英偉達的 GPU 結合使用時,整套系統可以提供相比當今基于 x86 CPU 的最新 NVIDIA DGX 快 10 倍的性能。
目前英偉達自家的 DGX,使用的是 AMD 7 納米制程的 Rome 架構 CPU。
據介紹,Grace 采用了更為先進的 5nm 制程,在內部通信能力上,它使用了英偉達第四代 NVIDIA NVLink,在 CPU 和 GPU 之間提供高達 900 GB/s 的雙向帶寬,相比之前的產品提升了八倍。Grace 還是第一個通過錯誤校正代碼(ECC)等機制利用 LPDDR5x 內存系統提供服務器級可靠性的 CPU,同時提供 2 倍的內存帶寬和高達 10 倍的能源效率。在架構上,它使用下一代 Arm Neoverse 內核,以高能效的設計提供高性能。
基于這款 CPU 和仍未發布的下一代 GPU,瑞士國家超級計算中心、蘇黎世聯邦理工大學將構建一臺名為「阿爾卑斯」的超級計算機,算力 20Exaflops(目前全球第一超算「富岳」的算力約為 0.537Exaflops),將實現兩天訓練一次 GPT-3 模型的能力,比目前基于英偉達 GPU 打造的 Selene 超級計算機快 7 倍。
美國能源部下屬的洛斯阿拉莫斯國家實驗室也將在 2023 年推出一臺基于 Grace 的超級計算機。
Grace 可以說是英偉達在今年 GTC 上最引人關注的產品了,它高度特化的設計與通過 PCIe 鏈接的 x86 版 CPU-GPU 系統大為不同,進而可以實現更好的性能。
GPU+CPU+DPU,三管齊下
「簡單說來,目前市場上每年交付的 3000 萬臺數據中心服務器中,有 1/3 用于運行軟件定義的數據中心堆棧,其負載的增長速度遠遠快于摩爾定律。除非我們找到加速的辦法,否則用于運行應用的算力將會越來越少,」黃仁勛說道。「新時代的計算機需要新的芯片、新的系統架構、新的網絡、新的軟件和工具。」
除了造 CPU 的大新聞以外,英偉達還在一個半小時的 Keynote 里陸續發布了大量重要軟硬件產品,覆蓋了 AI、汽車、機器人、5G、實時圖形、云端協作和數據中心等領域的最新進展。英偉達的技術,為我們描繪出了一幅令人神往的未來愿景。
首先是用于訓練 Transformers 的框架—— NVIDIA Megatron。Transformers 已幫助開發者在自然語言處理領域取得了突破性進展。面向醫藥領域,英偉達發布了一些用于計算藥物研發加速庫 Clara Discovery 的新模型,并介紹了一個基于物理學和機器學習的頂尖藥物研發與材料科學計算平臺 Schrodinger。在量子計算領域中,英偉達發布了量子計算模擬環境 cuQUANTUM,其有助于加快有賴于量子位(或量子比特,能作為單個的 0 或 1 存在,也可以同時作為二者存在)的量子計算研究,為量子電路模擬器提供加速,從而助力研究人員設計出更完善的量子計算機。為了保障現代化數據中心的安全,英偉達發布了 Morpheus 數據中心安全平臺,其基于 NVIDIA AI、NVIDIA BlueField、Net-Q 網絡遙測軟件和 EGX 而構建,能夠對完整的數據包進行實時檢測。為加快對話式 AI 的發展,英偉達發布了對話人工智能——NVIDIA Jarvis 的新版本,其能夠實現語音識別、語言理解、翻譯和表達性語音,同時也支持了更多種類的語言。推薦系統是用于搜索、廣告、在線購物、音樂、書籍、電影、用戶生成內容和新聞等領域的引擎,為加快推薦系統的速度,黃仁勛宣布 NVIDIA Merlin 現可通過 NGC(NVIDIA 的深度學習框架容器目錄)獲取。為幫助客戶將自身專業知識應用于 AI 領域,同時保護數據隱私,英偉達發布了 NVIDIA TAO,其可以運用客戶和合作伙伴的數據,對 NVIDIA 預訓練模型進行微調和適配。推理服務器 NVIDIA Triton,它可以從進入客戶 EGX 服務器或云實例的連續數據流中獲取洞察。黃仁勛說:「這包括任何在 cuDNN 上運行的 AI 模型,也就是幾乎所有的 AI ,包括來自 TensorFlow、Pytorch、ONNX、OpenVINO、TensorRT 或自定義 C++/python 后臺等的任何框架?!裹S仁勛發布了 BlueField-3 DPU,其將為構建超大規模數據中心、工作站和超級計算機所需的基礎設施提供進一步的加速。這款新一代數據處理器將提供最強大的軟件定義網絡、存儲和網絡安全加速功能。據介紹,一個 BlueField-2 能夠實現相當于 30 塊 CPU 核的工作負載,而 BlueField-3 在此基礎上又實現了 10 倍的性能飛躍,能夠替代 300 個 CPU 核,以 400Gbps 的速率,對網絡流量進行保護、卸載和加速。黃仁勛表示,英偉達全新的數據中心路線圖已包括 CPU、GPU 和 DPU 三類芯片,而 Grace 和 BlueField 是其中必不可少的關鍵組成部分。投身 Arm 架構的 CPU,并不意味著英偉達會放棄原有的 x86、Power 等架構,黃仁勛將英偉達重新定義為「三芯片」公司,覆蓋 CPU、GPU 和 DPU。
對于未來的發展節奏,黃仁勛表示:「我們的發展將覆蓋三個產品線——CPU、GPU 和 DPU,以每兩年一次更新的節奏進行,第一年更新 x86,第二年就更新 Arm。」
最后是自動駕駛?!笇τ谄嚩?,更高的算力意味著更加智能化,開發者們也能讓產品更快迭代。TOPS 就是新的馬力,」黃仁勛說道。
英偉達將于 2022 年投產的 NVIDIA 自動駕駛汽車計算系統級芯片——NVIDIA DRIVE Orin,旨在成為覆蓋自動駕駛和智能車機的汽車中央電腦。搭載 Orin 的量產車現在還沒法買到,但英偉達已經在為下一代,超過 L5 駕駛能力的計算系統作出計劃了。
Atlan 是這家公司為汽車行業設計的下一代 SoC,其將采用 Grace 下一代 CPU 和下一代安培架構 GPU,同時也集成數據處理單元 (DPU)。如此一來,Atlan 可以達到每秒超過 1000 萬億次(TOPS)運算次數。如果一切順利的話,2025 年新生產的車型將會搭載 Atlan 芯片。
與此同時,英偉達還展示了 Hyperion 8 自動駕駛汽車平臺,業內算力最強的自動駕駛汽車模板——搭載了 3 套 Orin 中心計算機。
不知這些更強的芯片和系統,能否應付未來幾年里人們對于算力無窮無盡的需求。在 GTC 2021 上,英偉達對于深度學習模型的指數增長圖又更新了?!溉觊g,大規模預訓練模型的參數量增加了 3000 倍。我們估計在 2023 年會出現 100 萬億參數的模型。」黃仁勛說道。
英偉達今天發布的一系列產品,讓這家公司在幾乎所有行業和領域都能為你提供最強大的機器學習算力。在黃仁勛的 Keynote 發表時,這家公司的股票一度突破了 600 美元大關。
「20 年前,這一切都只是科幻小說的情節;10 年前,它們只是夢想;今天,我們正在實現這些愿景。
英偉達每年在 GTC 大會上發布的新產品,已經成為了行業發展的風向。不知在 Grace 推出之后,未來我們的服務器和電腦是否會快速進入 Arm 時代。