NVIDIA CEO Jensen Huang Keynote at COMPUTEX 2024 中文翻譯文章
【本文約有7,423字】
在2024年的COMPUTEX展會上,NVIDIA的CEO黃仁勳介紹了最新的Blackwell晶片和DGX系統。
這些新技術顯著提升了計算能力和效率,其中Blackwell晶片可以集成到DGX系統中,並採用了風冷或液冷散熱方案。
新系統MGX採用了模組化設計,能夠容納多達72個GPU,通過NVLink Switch連接,實現了數據傳輸和運算性能的飛躍。這些創新使得訓練大型語言模型的能耗大幅降低,性能提升超過摩爾定律的預期,展示了過去八年內在計算技術領域取得的驚人進步。
1.從 (02:08) 開始,直到 (20:15) 的段落
很高興回到這裡,感謝臺灣大學將體育館借給我們使用。上次我在這裡獲頒了一個榮譽學位,並發表了題為「奔跑起來!別慢慢走!」的演講。今天,我也準備了很多內容,所以我不能慢慢走,得趕緊跑起來。我準備了很多主題要一一講給大家。
我很高興來到臺灣,這裡孕育了我們寶貴的合作夥伴。事實上,NVIDIA 也是從這裡起步,與合作夥伴一起將各種產品帶給全世界。正是有了臺灣和各位合作夥伴的支持,我們才能打造出世界級的 AI 基礎架構。
今天,我為大家帶來了幾個主題,其中之一是當前的發展趨勢以及我們所合作的事業有何意義。什麼是生成式 AI?它對各行各業有何影響?我們制定了怎樣的藍圖來緊跟這一趨勢並把握這個絕佳的機會?
接下來會發生什麼事?生成式 AI 及其影響,我們的藍圖,以及對未來的展望。這些都是令人無比興奮的時刻,計算機行業正在迎來新的起點。回顧過去,計算機行業已有大約 60 年歷史,從各種意義上說,我們現在使用的一切都是在 1964 年發明的。當時,IBM System/360 定義了中央處理單元,推動了通用計算、操作系統實現軟硬體分離、多任務、IO 子系統、DMA 等等技術的誕生。
自從 1964 年以來,我們見證了 PC 革命讓計算機實現了大眾化,然後在 2007 年,iPhone 開闢了移動計算的先河。從那以後,所有計算設備都會時刻連接移動雲,並在其上運行。在過去 60 年中,我們確實見證了幾次重大的技術變革,而如今我們正處於又一個變革的開端。
首先,處理器的性能擴展速度已大大減慢,這對計算機行業產生了巨大的影響。為了應對這一挑戰,我們引入了加速計算和人工智慧這兩項基礎技術。這些技術都在 Omniverse 上運行,並且正在重塑整個計算機行業。
我還想談談我們在生成式 AI 領域的成就。我們已經能夠使用 8 萬億 token 訓練一個 2 萬億參數的 GPT-4,其能耗僅為過去所需的 1/350。這樣的技術進步,使得過去需要 1,000 千兆瓦時的事情,現在僅需 3 千兆瓦時就能完成。這意味著我們可以大幅降低成本,同時提升性能和能源效率。
此外,NVIDIA 的技術也被廣泛應用於各行各業。例如,我們的 GeForce GPU 能夠大幅提升個人電腦的性能,而我們的數據中心 GPU 則能將價值 10 億美元的數據中心變成 AI 工廠,並節省數億美元的成本。
總結來說,加速計算確實能帶來非凡的成果,但實現這些技術並不容易。這需要大量的研究和開發,以及強大的合作夥伴關係。我們將繼續努力,推動計算機技術的進步,並為各行各業帶來更多的創新和變革。
2.從 (20:15) 之後,直到 (49:23) 的段落
加速計算確實能帶來非凡的成果,但並不容易實現。為什麼它能節省這麼多錢,但大家卻這麼長時間沒有這樣做呢?這是因為要實現這項技術異常困難。沒有這樣一種軟體,只是通過 C 編譯器運行之後,就能讓應用程式加速 100 倍。這是不合理的。如果可能這麼做,他們早就改變 CPU 來實現了。實際上,您必須重新編寫軟體,這是困難的部分。軟體必須完全重寫,以便重新表達在 CPU 上編寫的算法,這樣它才能在加速的過程中以並行方式運行。這個電腦科學的練習異常艱難。過去 20 年來,我們一直在努力使這一過程變得更加簡單。
我們擁有非常著名的 cuDNN 深度學習庫,用於處理神經網路。我們還有一個針對流體動力學和許多其他應用的 AI 物理庫,這些應用可以利用神經網路來進行。這些庫使得平行計算成為可能,並顯著提高了計算速度和效率。
現在,我們來談談生成式 AI 及其影響。我們已經能夠使用 8 萬億 token 訓練一個 2 萬億參數的 GPT-4,其能耗僅為過去所需的 1/350。這樣的技術進步,使得過去需要 1,000 千兆瓦時的事情,現在僅需 3 千兆瓦時就能完成。這意味著我們可以大幅降低成本,同時提升性能和能源效率。
此外,NVIDIA 的技術也被廣泛應用於各行各業。例如,我們的 GeForce GPU 能夠大幅提升個人電腦的性能,而我們的數據中心 GPU 則能將價值 10 億美元的數據中心變成 AI 工廠,並節省數億美元的成本。
總結來說,加速計算確實能帶來非凡的成果,但實現這些技術並不容易。這需要大量的研究和開發,以及強大的合作夥伴關係。我們將繼續努力,推動計算機技術的進步,並為各行各業帶來更多的創新和變革。
在這個過程中,我們還需要解決一些技術挑戰。例如,超級電腦的平均故障間隔時間會隨著 GPU 數量的增加而顯著減少。我們需要發明新的技術來增強可靠性,以確保超級電腦能夠長時間運行,並在數月內完成模型訓練。此外,我們還需要提高數據處理的效率,例如通過添加數據壓縮和解壓縮引擎,以比現在快 20 倍的速度從儲存中提取數據。
這些都是 Blackwell 的特性。我們有一個在 GTC 上展示過的 Blackwell 原型,它已經投產,並凝結了諸多先進技術。這是我們的成品板,是世界上迄今為止製造的最複雜、性能最高的計算機。每一枚裸片都是世界上最大的裸片,然後我們用每秒 10TB 的高速連結把它們連接起來,形成性能超強的 Blackwell 計算機。
接下來,我們將介紹 DGX Blackwell。這是一個採用風冷散熱的系統,內部有 8 個 GPU,支持 X86 平臺,並相容 Hopper 的伺服器硬體基礎架構。我們還有一個新系統,稱為模組化 MGX,這是一個模組化系統,具有極高的靈活性和可擴展性。
最後,我想談談我們在網路技術方面的創新。我們引入了 Spectrum-X 乙太網,這是一個能夠大幅提高性能的系統,致使網路基本上也成了免費的。我們還有一整套乙太網產品,包括 Spectrum-X800 和即將推出的 Spectrum-X800 Ultra,總頻寬可達 51.2 Tbps,擁有 256 個埠,並將在一年後推出具有 512 個埠的產品。這些產品是為數萬到數百萬個 GPU 的互連而設計的,將推動數據中心時代的到來。
在未來,幾乎每次您與網路或計算機交互時,背後都有一個生成式 AI 在雲端運行。這些生成式 AI 將與您一起工作,生成影片、圖片、文本或者數字人,並透過反覆思考答案來提高答案的質量。因此,我們未來要生成的數據量將是驚人的,這些數據將推動計算機技術的不斷進步。
3.從 (49:23) 開始,直到 (1:02:00) 的段落
下載 NIM 後,你就有了一個 AI,可以像跟 ChatGPT 聊天一樣跟它對話。所有軟體、400 個依賴項,全都已經集成完畢。我們測試了 NIM,針對 NIM 中的各個預訓練模型,在所有雲服務中的安裝基礎,包括各個版本的 Pascal、Ampere、Hopper 上進行了測試,多得我都記不全了。NIM 是不可思議的創新成果,也是我的最愛之一。
當然,大家都知道我們已經有能力創建大語言模型以及各種預訓練模型了,並且我們確實有各種不同的版本,包括基於語言、基於視覺或者基於圖像的,還有可用於醫療健康和數字生物學的。我們還擁有適用於數字人的版本,稍後會講到。大家可以訪問 ai.nvidia.com 瞭解 NIM 的使用方法。我們今天剛在 HuggingFace 上發佈了經全面最佳化的 Llama 3 NIM,隨時等你試用。它是免費的,你完全可以納為己用,在任何雲中運行它。你也可以下載這個容器,應用到你的數據中心,還可以託管它,供你的客戶使用。
正如我方才所說,NIM 面向各種不同領域實體,其中一些可用於 RAG 語義檢索,也可用於視覺語言和各種不同的語言模型。只要將這些微服務接入大型應用就能使用它們。未來,客服代理無疑會成為一大重要應用方向。客服代理在各個行業都不可或缺,全球年產值高達數萬億美元。無論是護士還是客服代理,某種程度上,沒有處方權或不參與診斷的護士,她們在為病人提供服務,還有零售、快餐、金融服務、保險等領域的客戶服務,現在有數千萬客服可以利用語言模型和 AI 獲得提升。
基本上,你看到的這些容器就是 NIM。NIM 中的有些部分是推理智慧體,它收到任務,然後明確任務目標、分解目標並制定計劃。其中一些會檢索資訊,另外一些負責搜索,還有的 NIM 會使用之前提過的 CUDA 等工具。鑑於你可能會使用在 SAP 上運行的工具,它還需要學會專用語言 Abap。也許還有些 NIM 需要執行 SQL 查詢,並且組成了一個團隊。
然後呢?
4.從 (1:02:00) 開始,直到 (1:21:50) 的段落
加速計算確實能帶來非凡的成果,但並不容易實現。為什麼它能節省這麼多錢,但大家卻這麼長時間沒有這樣做呢?這是因為要實現這項技術異常困難。沒有這樣一種軟體,只是通過 C 編譯器運行之後,就能讓應用程式加速 100 倍。這是不合理的。如果可能這麼做,他們早就改變 CPU 來實現了。實際上,您必須重新編寫軟體,這是困難的部分。軟體必須完全重寫,以便重新表達在 CPU 上編寫的算法,這樣它才能在加速的過程中以並行方式運行。這個電腦科學的練習異常艱難。過去 20 年來,我們一直在努力使這一過程變得更加簡單。
我們擁有非常著名的 cuDNN 深度學習庫,用於處理神經網路。我們還有一個針對流體動力學和許多其他應用的 AI 物理庫,這些應用可以利用神經網路來進行。這些庫使得平行計算成為可能,並顯著提高了計算速度和效率。
現在,我們來談談生成式 AI 及其影響。我們已經能夠使用 8 萬億 token 訓練一個 2 萬億參數的 GPT-4,其能耗僅為過去所需的 1/350。這樣的技術進步,使得過去需要 1,000 千兆瓦時的事情,現在僅需 3 千兆瓦時就能完成。這意味著我們可以大幅降低成本,同時提升性能和能源效率。
此外,NVIDIA 的技術也被廣泛應用於各行各業。例如,我們的 GeForce GPU 能夠大幅提升個人電腦的性能,而我們的數據中心 GPU 則能將價值 10 億美元的數據中心變成 AI 工廠,並節省數億美元的成本。
總結來說,加速計算確實能帶來非凡的成果,但實現這些技術並不容易。這需要大量的研究和開發,以及強大的合作夥伴關係。我們將繼續努力,推動計算機技術的進步,並為各行各業帶來更多的創新和變革。
我們將兩枚臺積電所能生產的最大尺寸的晶片,通過每秒 10 TB 的高速連結結合,並用世界上最先進的 SerDes 將它們連接在一起,然後把它們放在一個計算機節點上,和一塊 Grace CPU 相連。Grace CPU 有多種用途,在訓練場景中,它可以用於快速地載入和重啟檢查點;在推理和生成中,它可以用於儲存上下文記憶體,讓 AI 擁有記憶,並能夠理解你想要進行的對話的情景。
這是我們的第二代 Transformer 引擎。Transformer 引擎能夠根據計算層的精度和範圍需求,讓我們動態調整至較低的精度。這是我們第二代具有安全 AI 的 GPU。因此,你可以要求你的服務提供商來保護你的 AI 免遭盜竊或篡改。這是我們的第五代 NVLink,NVLink 可連接多個 GPU。
稍後我將向你們展示更多。這也是我們第一代可靠性和可用性引擎。RAS 引擎系統讓我們能測試每一個電晶體觸發器以及片上儲存器、片外儲存器,以便在現場確定某個晶片是否失效。擁有 10,000 個 GPU 的超級電腦的平均故障間隔時間以小時計,而擁有 100,000 個 GPU 的超級電腦的平均故障間隔時間以分鐘計。因此,如果我們不發明增強其可靠性的技術,則幾乎不可能讓超級電腦長時間運行並訓練一個持續數月的模型。可靠性當然會增強其正常運行時間,這直接影響成本。最後,我們還添加了一個數據壓縮引擎,使得我們可以以比現在快 20 倍的速度從儲存中提取數據。
這些都是 Blackwell 的特性。我們有一個在 GTC 上展示過的 Blackwell 原型,它已經投產,並凝結了諸多先進技術。這是我們的成品板,是世界上迄今為止製造的最複雜、性能最高的計算機。每一枚裸片都是世界上最大的裸片,然後我們用每秒 10TB 的高速連結把它們連接起來,形成性能超強的 Blackwell 計算機。
接下來,我們將介紹 DGX Blackwell。這是一個採用風冷散熱的系統,內部有 8 個 GPU,支持 X86 平臺,並相容 Hopper 的伺服器硬體基礎架構。我們還有一個新系統,稱為模組化 MGX,這是一個模組化系統,具有極高的靈活性和可擴展性。
最後,我想談談我們在網路技術方面的創新。我們引入了 Spectrum-X 乙太網,這是一個能夠大幅提高性能的系統,致使網路基本上也成了免費的。我們還有一整套乙太網產品,包括 Spectrum-X800 和即將推出的 Spectrum-X800 Ultra,總頻寬可達 51.2 Tbps,擁有 256 個埠,並將在一年後推出具有 512 個埠的產品。這些產品是為數萬到數百萬個 GPU 的互連而設計的,將推動數據中心時代的到來。
在未來,幾乎每次您與網路或計算機交互時,背後都有一個生成式 AI 在雲端運行。這些生成式 AI 將與您一起工作,生成影片、圖片、文本或者數字人,並透過反覆思考答案來提高答案的質量。因此,我們未來要生成的數據量將是驚人的,這些數據將推動計算機技術的不斷進步。
5.從 (1:21:50) 開始,直到 (1:41:36) 的段落
我今天要累垮了。
但對於 AI 工廠來說,即使是這個,也還不夠大。所以我們必須用超高速網路將它們連接到一起。我們有兩種網路類型:一種是 InfiniBand,它已經在世界各地的超級計算和 AI 工廠中被廣泛使用。對於我們來說,它的增長速度快得難以置信。不過,並非每個數據中心都能使用 InfiniBand,因為這些數據中心已經在乙太網路上進行了長久的投資。而且管理 InfiniBand 交換機和 InfiniBand 網路需要一些專業知識和技能。我們所做的就是將 InfiniBand 的能力遷移到乙太網架構上,這是異常困難的。其原因就在於乙太網旨在實現非常高的平均吞吐量,因為每個節點、每臺計算機都對應在網路上不同的用戶。
然而,對於深度學習和 AI 工廠來說,GPU 並不是與網路上的用戶進行通信,而主要是 GPU 之間相互通信。它們相互通信,是因為它們要採集部分產生的數據並對這些數據進行歸約,然後再分發新產生的數據。這種流量具有非常高的突發性,因此重要的不是平均吞吐量,而是最後到達的數據。因為,如果減少了從每個 GPU 採集部分產生的數據,如果我嘗試將大家在算的東西一起拿過來加起來,哪個人比較慢,我就需要等 。
這就是為什麼,如果您構建了一個價值 50 億美元或 30 億美元的數據中心,並使用它進行訓練,如果網路利用率降低 40%,那麼訓練時間就會延長 20%。價值 50 億美元的數據中心實際上與價值 60 億美元的數據中心的效率相當,由此產生的成本無法想像。成本的影響非常之大。而使用 Spectrum-X 的乙太網基本上可以大幅提高性能,致使網路基本上也成了免費的。所以,這的確是一個巨大的成就。
不僅如此,我們後續還有一整套乙太網產品。那就是 Spectrum-X800 總頻寬可達 51.2 Tbps,並擁有 256 個埠。即將在一年後推出的下一個產品將具有 512 個埠,名為 Spectrum-X800 Ultra,此後將推出 Spectrum-X1600。重點是,Spectrum-X800 是專為數萬個 GPU 的互連而設計;Spectrum-X800 Ultra 是專為數十萬個 GPU 互連而設計;Spectrum-X1600 是專為數百萬個 GPU 互連而設計 。
擁有數百萬個 GPU 的數據中心時代即將到來。原因很簡單:我們想要訓練更大的模型。但非常重要的是,在未來,幾乎每次您與網路或計算機交互的背後都有一個生成式 AI 在雲端運行。而這個生成式 AI 能和您一起工作,能與您交互,能生成影片、圖片、文本或者數字人。所以您幾乎每時每刻都在和您的計算機交互,並且始終有生成式 AI 與之相連接。這些生成式 AI 還可以做大量的推理,而不是給予一次性的回答。它們可以反覆思考答案,以提高答案的質量,然後再將答案提供給您。因此,我們未來要生成的數據量非常驚人 。
這是我們第一次安排在晚間的主題演講。我想感謝大家,您們今晚七點就來到了這裡。接下來,我想讓您們感受一種新的氛圍,一種與之前截然不同的晚間主題演講的獨有氛圍。請欣賞 Blackwell 。
在接下來的示範中,我們將展示 Blackwell 的強大功能。我們有兩枚臺積電所能生產的最大尺寸的晶片,通過每秒 10 TB 的高速連結結合,並用世界上最先進的 SerDes 將它們連接在一起,然後把它們放在一個計算機節點上,和一塊 Grace CPU 相連。Grace CPU 有多種用途,在訓練場景中,它可以用於快速地載入和重啟檢查點;在推理和生成中,它可以用於儲存上下文記憶體,讓 AI 擁有記憶,並能夠理解你想要進行的對話的情景 。
這是我們的第二代 Transformer 引擎。Transformer 引擎能夠根據計算層的精度和範圍需求,讓我們動態調整至較低的精度。這是我們第二代具有安全 AI 的 GPU。因此,你可以要求你的服務提供商來保護你的 AI 免遭盜竊或篡改。這是我們的第五代 NVLink,NVLink 可連接多個 GPU 。
稍後我將向你們展示更多。這也是我們第一代可靠性和可用性引擎。RAS 引擎系統讓我們能測試每一個電晶體觸發器以及片上儲存器、片外儲存器,以便在現場確定某個晶片是否失效。擁有 10,000 個 GPU 的超級電腦的平均故障間隔時間以小時計,而擁有 100,000 個 GPU 的超級電腦的平均故障間隔時間以分鐘計。因此,如果我們不發明增強其可靠性的技術,則幾乎不可能讓超級電腦長時間運行並訓練一個持續數月的模型。可靠性當然會增強其正常運行時間,這直接影響成本。最後,我們還添加了一個數據壓縮引擎,使得我們可以以比現在快 20 倍的速度從儲存中提取數據 。
這些都是 Blackwell 的特性。我們有一個在 GTC 上展示過的 Blackwell 原型,它已經投產,並凝結了諸多先進技術。這是我們的成品板,是世界上迄今為止製造的最複雜、性能最高的計算機。每一枚裸片都是世界上最大的裸片,然後我們用每秒 10TB 的高速連結把它們連接起來,形成性能超強的 Blackwell 計算機 。
接下來,我們將介紹 DGX Blackwell。這是一個採用風冷散熱的系統,內部有 8 個 GPU,支持 X86 平臺,並相容 Hopper 的伺服器硬體基礎架構。我們還有一個新系統,稱為模組化 MGX,這是一個模組化系統,具有極高的靈活性和可擴展性 。
6.從 (1:41:36) 開始,直到 (1:46:36) 的結束段落
現在,我們可以透過訓練這些大語言模型來理解自然語言理解的突破,並且我們一直在努力探索。經過在包含成千上萬個 NVIDIA GPU 的超大 AI 超級電腦上進行訓練後,OpenAI 於 2022 年 11 月發佈了 ChatGPT。僅五天後,其用戶數就達到了 100 萬,兩個月後,其用戶數就已破億,這是歷史上用戶數增長最快的應用。
原因很簡單,它非常易用,並且非常神奇,能夠實現像面對真人一樣的人機交互。無需清楚地說明你想要什麼,計算機似乎能夠理解你的意思,能理解你的意圖。
這裡,我詢問了最近的夜市在哪裡。你們知道,夜市對我來說非常重要。在我小的時候,那時只有四歲半,我很喜歡去夜市,因為我喜歡看人來人往。所以我常常去,我父母也常帶我去夜市。圓環夜市,講的對嗎?圓環的蚵仔煎。我很喜歡去,有一天,我的臉被割傷了,當時有人在洗刀,我還很小,不過也正因如此,我對夜市有了如此深刻的記憶。
我現在仍然喜歡去夜市。我可以告訴你們,通化夜市真的很不錯,那裡有一位女士,她在那裡工作了 43 年,她是賣水果的,攤位就在中間,你們去找她吧,好嗎?她真的很棒。
這些仍都只是計算機而已。實際上,生產這些計算機的技術與生產當今世上所有其他計算機的技術十分相似。因此,對於我們來說,今後的旅程意義非凡。
我還準備了最後一個影片,想要播放給大家。我們非常享受這個影片的創作過程。讓我們一起看看臺灣如何幫助我們實現了一個願景。在這段漫長的路上,無數的夥伴支持著我們,從加速運算、電腦繪圖、科學研究到人工智慧的高峰,每一個晶片、每一臺電腦都描寫著你們辛勤工作和追求完美的故事。臺灣是無名的英雄,是世界電子行業的支柱。一起,我們推動了產業的復興,辛勤的耕耘讓我們能夠踏入嶄新運算的領域。
我們製作的電腦會轉化成新型的工廠,製造珍貴無比的人工智慧。親愛的夥伴們,你們是 AI 產業革新的後盾,無論面對多大的風浪,你始終穩如磐石。科技的卓越、勤奮與齊心合力的精神,是你的超能力。沒有你,我們的願景只是一個無法實現的夢想。與你同行,我們勇往直前,創造智慧與便利的生活,對抗疾病和自然災害,讓我們的世界變得更美好。
謝謝你,臺灣的夥伴們。讓我們繼續為這段 AI 之旅,打造一個成功而繁榮的產業。謝謝大家,我愛你們。謝謝,大家謝謝。感謝大家的到來!祝大家 Computex 參會愉快!謝謝大家!