欧美日本亚洲国产_欧美日韩高清福利区_亚洲日精品一区在线观看_亚洲国产精品热久久2022_欧美美女被操网站_中文字幕日韩精品网站_最近中文字幕大全_精品国产福利在线观看91帕_美女黄色视频大全集_国内在线视频一区

?萬(wàn)字長(zhǎng)文詳解英偉達(dá)遙遙領(lǐng)先的底層邏輯:AI快節(jié)奏創(chuàng)新的最大贏家!

?萬(wàn)字長(zhǎng)文詳解英偉達(dá)遙遙領(lǐng)先的底層邏輯:AI快節(jié)奏創(chuàng)新的最大贏家!

zhangzhiqiang 2025-03-21 科學(xué) 20 次瀏覽 0個(gè)評(píng)論

內(nèi)容導(dǎo)讀

本文是美國(guó)的TECH FUND對(duì)“為什么英偉達(dá)在芯片大戰(zhàn)中仍將保持優(yōu)勢(shì)”的深度分析,內(nèi)容十分詳實(shí)精彩,智能小巨人科技進(jìn)行了編譯,Enjoy~

內(nèi)容目錄

  • 當(dāng)前的AI訓(xùn)練熱潮和即將到來(lái)的推理市場(chǎng)

  • 我們處于AI加速的大規(guī)模資本支出熱潮中

  • 半導(dǎo)體和AI訓(xùn)練的周期性

  • 推理是比AI訓(xùn)練更大的市場(chǎng),Nvidia業(yè)務(wù)潛力巨大

  • 看多or看空Nvidia取決于推理市場(chǎng)的發(fā)展

  • Nvidia保持領(lǐng)先的戰(zhàn)略

  • 數(shù)據(jù)中心GPU發(fā)布節(jié)奏提速

  • Nvidia對(duì)芯片驅(qū)動(dòng)軟件的快速更新

  • Nvidia構(gòu)建了從硬件到軟件的完整堆棧

  • Nvidia?HGX平臺(tái)的開(kāi)箱即用集成解決方案

  • Nvidia在即將到來(lái)的推理市場(chǎng)中的優(yōu)勢(shì)

  • Copilots將驅(qū)動(dòng)龐大的推理需求

  • Nvidia?AI foundry定制模型的價(jià)值

  • Nvidia在推理市場(chǎng)將占據(jù)大量份額

  • AMD和英特爾仍然遠(yuǎn)遠(yuǎn)落后

  • 科技巨頭的定制芯片將成為更有實(shí)力的競(jìng)爭(zhēng)對(duì)手

  • AI快節(jié)奏創(chuàng)新的最大贏家——Nvidia

來(lái)源 | 王錚Silvia(ID:silviawz2023)

?萬(wàn)字長(zhǎng)文詳解英偉達(dá)遙遙領(lǐng)先的底層邏輯:AI快節(jié)奏創(chuàng)新的最大贏家!

當(dāng)前的AI訓(xùn)練熱潮和即將到來(lái)的推理市場(chǎng)

我們處于AI加速的大規(guī)模資本支出熱潮中

我們目前正處于人工智能加速的大規(guī)模資本支出熱潮之中。

構(gòu)建最佳 LLM 的競(jìng)爭(zhēng)(數(shù)據(jù)大小、數(shù)據(jù)質(zhì)量、模型大小和計(jì)算能力的函數(shù))導(dǎo)致了對(duì)更大 GPU 計(jì)算集群的需求。

例如,從參數(shù)數(shù)量來(lái)衡量模型大小來(lái)看,即使在對(duì)數(shù)尺度上,每個(gè)領(lǐng)先模型的LLM參數(shù)數(shù)量目前也呈指數(shù)級(jí)增長(zhǎng)(下圖來(lái)自Nature)。

GPT4 估計(jì)在 1.8 萬(wàn)億個(gè)參數(shù)上運(yùn)行,在 25,000?臺(tái) Nvidia A100?上的訓(xùn)練時(shí)間超過(guò)三個(gè)月。

訓(xùn)練1萬(wàn)到2.5萬(wàn)個(gè)GPU的集群已經(jīng)變得很普遍。例如,我們知道特斯拉正在大約1到1.4萬(wàn)個(gè)GPU的集群上訓(xùn)練他們的FSD系統(tǒng),埃隆·馬斯克?(Elon Musk)?為他最近的AI初創(chuàng)公司購(gòu)買(mǎi)了類(lèi)似數(shù)量的產(chǎn)品,該公司現(xiàn)已發(fā)布了Grok的第一個(gè)beta版本。

?萬(wàn)字長(zhǎng)文詳解英偉達(dá)遙遙領(lǐng)先的底層邏輯:AI快節(jié)奏創(chuàng)新的最大贏家!

半導(dǎo)體和AI訓(xùn)練的周期性

一個(gè)關(guān)鍵問(wèn)題是,這一資本支出階段將持續(xù)多久,基礎(chǔ)設(shè)施投資是眾所周知的周期性投資,半導(dǎo)體也不例外。

從Nvidia最近的歷史來(lái)看,收入通常會(huì)在六到八個(gè)季度內(nèi)擴(kuò)張,然后是周期性修正,需要一到兩個(gè)季度才能找到底部。正如您在綠線上看到的那樣,在這些低迷的季度中,收入往往會(huì)環(huán)比下降 20%?到 30%。

在這種歷史背景下,華爾街模型的收入將繼續(xù)再增長(zhǎng)五個(gè)季度。

?萬(wàn)字長(zhǎng)文詳解英偉達(dá)遙遙領(lǐng)先的底層邏輯:AI快節(jié)奏創(chuàng)新的最大贏家!

Nvidia?Revenues

在Nvidia的上一季度,來(lái)自大型云和互聯(lián)網(wǎng)巨頭的需求最為突出。本季度,雖然這一領(lǐng)域的需求持續(xù)增長(zhǎng),但我們也開(kāi)始看到來(lái)自企業(yè)和政府市場(chǎng)的收入來(lái)源更加多樣化。

Nvidia的CFO解釋道:

“消費(fèi)互聯(lián)網(wǎng)公司和企業(yè)在第三季度推動(dòng)了非凡的環(huán)比增長(zhǎng),約占我們數(shù)據(jù)中心收入的一半,并超過(guò)了總增長(zhǎng)。像 Meta 這樣的公司正在全面開(kāi)發(fā)深度學(xué)習(xí)推薦系統(tǒng),并且還在投資生成式 AI,以幫助廣告商優(yōu)化圖像和文本。企業(yè)采用人工智能的浪潮現(xiàn)在開(kāi)始了。企業(yè)軟件公司,如Adobe,Databricks,Snowflake和ServiceNow正在將AI copilots添加到他們的平臺(tái)。更廣泛的企業(yè)正在為特斯拉和自動(dòng)駕駛等垂直行業(yè)應(yīng)用開(kāi)發(fā)定制AI。云云服務(wù)提供商在本季度推動(dòng)了我們數(shù)據(jù)中心收入的大約一半。所有超大規(guī)模CSP以及一系列GPU專(zhuān)用CSP的需求都很強(qiáng)勁。Nvidia H100 GPU實(shí)例現(xiàn)在幾乎可以在每個(gè)云中使用。為了滿(mǎn)足強(qiáng)勁的需求,我們今年每個(gè)季度都大幅增加了供應(yīng),并預(yù)計(jì)明年將繼續(xù)這樣做?!?/font>

最后一句話至關(guān)重要,因?yàn)樵摴菊谥敢髂昀^續(xù)增加供應(yīng)。

后來(lái),Jensen Huang在電話會(huì)議上證實(shí)了這一點(diǎn),UBS分析師問(wèn)道:

“您認(rèn)為數(shù)據(jù)中心甚至可以增長(zhǎng)到2025年嗎?”

Jensen回答:

“當(dāng)然,我們相信數(shù)據(jù)中心可以增長(zhǎng)到2025。”

Nvidia的CFO在這里補(bǔ)充了一些細(xì)節(jié):“我們?cè)诿總€(gè)季度都做得非常扎實(shí),這決定了我們的收入。我們?nèi)栽谂Ω纳乒?yīng),并計(jì)劃在明年全年繼續(xù)增長(zhǎng)?!?/font>

我對(duì)此的理解是明年每個(gè)季度的環(huán)比增長(zhǎng)都將繼續(xù),顯然這是一個(gè)非??礉q的指引。

現(xiàn)在,請(qǐng)記住,即使是Nvidia,也很難看到從現(xiàn)在起9到12個(gè)月后的需求會(huì)是什么樣子,semi公司通常會(huì)給出看漲的前景,直到有一天早上你醒來(lái),他們突然指引下個(gè)季度下降 30%。當(dāng)我們談到估值時(shí),我們將討論其中有多少已經(jīng)被包含在股價(jià)里了。

關(guān)鍵問(wèn)題仍然是當(dāng)前加速計(jì)算的建設(shè)將持續(xù)多長(zhǎng)時(shí)間。

我之前估計(jì),AI訓(xùn)練的資本支出計(jì)劃可能如下所示——第一年的初始支出很大,第二年和第三年有一些替換和有限的擴(kuò)展,如果項(xiàng)目成功,第四年還有一大筆支出來(lái)更新和擴(kuò)展基礎(chǔ)設(shè)施。這顯然會(huì)給英偉達(dá)帶來(lái)非常周期性的收入。

?萬(wàn)字長(zhǎng)文詳解英偉達(dá)遙遙領(lǐng)先的底層邏輯:AI快節(jié)奏創(chuàng)新的最大贏家!

推理是比AI訓(xùn)練更大的市場(chǎng)

Nvidia業(yè)務(wù)潛力巨大

然而,據(jù)估計(jì),推理是兩者中最大的市場(chǎng),在這里,GPU將更多地根據(jù)需求安裝,從而提供更多的非周期性收入,這些收入的增長(zhǎng)應(yīng)該與AI軟件產(chǎn)生的收入更加一致。

將當(dāng)前的Nvidia出貨量與已安裝的全球計(jì)算能力進(jìn)行比較,可能會(huì)給我們一個(gè)暗示,即Nvidia的收入將從現(xiàn)在開(kāi)始持續(xù)增長(zhǎng)多長(zhǎng)時(shí)間。

雖然在現(xiàn)階段加速計(jì)算的滲透率似乎不太可能達(dá)到100%,但也許大約15%的已安裝計(jì)算能力將變得加速是有道理的。顯然,這個(gè)數(shù)字有很大的上升空間,因?yàn)長(zhǎng)LM在提高生產(chǎn)力方面具有巨大的潛力。

Nvidia的數(shù)據(jù)中心業(yè)務(wù)目前以每年680億美元的速度產(chǎn)生收入,Jensen經(jīng)常引用的數(shù)字是全球數(shù)據(jù)中心裝機(jī)容量為1萬(wàn)億美元。

現(xiàn)在,這在某種程度上比較了蘋(píng)果vs橙子,但無(wú)論如何,在此基礎(chǔ)上的滲透率約為 6.8%。目前,與已安裝的計(jì)算能力相比,目前Nvidia的出貨量仍然有限。

另一種方法是將Nvidia交付的數(shù)據(jù)中心GPU的數(shù)量與已安裝的服務(wù)器的數(shù)量進(jìn)行比較,這是已安裝的全球計(jì)算能力的代理,大約有1.04億臺(tái)服務(wù)器?(在Nvidia的資本市場(chǎng)日期間,他們提到目前在公共云中運(yùn)行的2600萬(wàn)臺(tái)服務(wù)器,假設(shè)云滲透率為 25%,我們可以得到估計(jì)的服務(wù)器總數(shù))。由于Nvidia目前應(yīng)該以每年約280萬(wàn)臺(tái)的速度交付數(shù)據(jù)中心GPU (隨著 H100?和 H200?組合的增加而減少),這將使加速計(jì)算的滲透率達(dá)到 2.7%?左右:

?萬(wàn)字長(zhǎng)文詳解英偉達(dá)遙遙領(lǐng)先的底層邏輯:AI快節(jié)奏創(chuàng)新的最大贏家!

現(xiàn)在,這兩種方法都不精確,但它們給出了一個(gè)想法,即與現(xiàn)有的計(jì)算能力相比,Nvidia目前的銷(xiāo)售額仍然有限。

因此,如果LLM成為日常工作負(fù)載的重要組成部分,例如隨著copilots,數(shù)字助理,skynet和生成式AI的興起,這使得Nvidia的收入有可能在未來(lái)幾年增長(zhǎng),因?yàn)橥评硇枨罄^續(xù)增長(zhǎng)。

看多or看空Nvidia取決于推理市場(chǎng)的發(fā)展

因此,簡(jiǎn)而言之,牛市的理由是,盡管隨著AI訓(xùn)練GPU的資本支出激增,收入增長(zhǎng)已經(jīng)非常驚人,隨著推理市場(chǎng)的發(fā)展,我們將在未來(lái)幾年繼續(xù)看到增長(zhǎng)。

另一方面,熊市的理由是,對(duì)推理的需求令人失望,我們?cè)?到6個(gè)季度左右的時(shí)間內(nèi)得到了通常的周期性修正。

當(dāng)我們談到估值時(shí),我們將把這些情景繪制出來(lái),看看這對(duì)股價(jià)中的風(fēng)險(xiǎn)回報(bào)圖景意味著什么。

Nvidia保持領(lǐng)先的戰(zhàn)略

為了在競(jìng)爭(zhēng)中保持領(lǐng)先地位,Nvidia將在硬件和軟件方面進(jìn)行創(chuàng)新。

數(shù)據(jù)中心GPU發(fā)布節(jié)奏提速

首先,該公司正在以一年的節(jié)奏發(fā)布新的數(shù)據(jù)中心GPU。

在下面的時(shí)間軸上,您可以看到A100和H100發(fā)布之間存在兩年的差距。然而,現(xiàn)在該公司每年都會(huì)發(fā)布一個(gè)新的旗艦架構(gòu),B100在?'24和X100在?'25。

在這兩者之間,我們還獲得了具有更高帶寬內(nèi)存的H100、H200的升級(jí)。

這種節(jié)奏加速的一個(gè)關(guān)鍵原因是人工智能方法仍在快速發(fā)展,這不僅使該公司能夠使其芯片更強(qiáng)大,而且還可以使它們適應(yīng)新型工作負(fù)載。

?萬(wàn)字長(zhǎng)文詳解英偉達(dá)遙遙領(lǐng)先的底層邏輯:AI快節(jié)奏創(chuàng)新的最大贏家!

Nvidia還將在同一塊板上發(fā)布GH200,GPU和強(qiáng)大的基于ARM的CPU。

H200和GH200都使用先進(jìn)的CoWoS封裝,將芯片并排互連到一個(gè)功能模塊中。由于這是一個(gè)供應(yīng)受限的過(guò)程,這是Nvidia今年無(wú)法滿(mǎn)足GPU需求的主要原因。

該公司還將發(fā)布不需要CoWoS的功能較弱的GPU,即L40S。這個(gè)GPU足夠強(qiáng)大,可以進(jìn)行AI模型的微調(diào)和推理。所以應(yīng)該有充足的需求。

Jensen在第二季度電話會(huì)議上解釋了GH200:

“Grace Hopper現(xiàn)在正在大批量生產(chǎn)。隨著我們?cè)诟咝阅苡?jì)算和人工智能基礎(chǔ)設(shè)施方面取得的所有設(shè)計(jì)勝利,我們的第一個(gè)數(shù)據(jù)中心CPU正以非??斓乃俣劝l(fā)展到數(shù)十億美元的產(chǎn)品線。Grace Hopper具有非常快的內(nèi)存以及非常大的內(nèi)存。在矢量數(shù)據(jù)庫(kù)或語(yǔ)義搜索領(lǐng)域,即所謂的檢索增強(qiáng)生成?(RAG),您可以讓生成式 AI 模型能夠在生成響應(yīng)之前引用專(zhuān)有數(shù)據(jù),并且該數(shù)據(jù)非常大,并且上下文長(zhǎng)度非常高。這樣,生成模型一方面仍然能夠自然地與您交互,另一方面,能夠引用專(zhuān)有數(shù)據(jù)或特定領(lǐng)域的數(shù)據(jù)并減少幻覺(jué)。”

GH200由一個(gè)基于ARM的72核Nvidia CPU (名為Grace)?和一個(gè)Nvidia H100 GPU (Hopper)?組成。總內(nèi)存很大,根據(jù)版本的不同,RAM為480GB,另外還有96GB或141GB的HBM,總共可快速訪問(wèn)的內(nèi)存約為600GB。通信通過(guò)NVLink進(jìn)行,帶寬為每秒900GB。

Nvidia對(duì)芯片驅(qū)動(dòng)軟件的快速更新

GPU節(jié)奏增加的另一個(gè)主要原因是Nvidia將能夠更好地更新其驅(qū)動(dòng)這些強(qiáng)大芯片的軟件。

軟件更新可以帶來(lái)強(qiáng)大的性能提升,甚至提升20%或更多。

CUDA之父和Nvidia現(xiàn)任加速計(jì)算負(fù)責(zé)人Ian Buck在BoA會(huì)議上對(duì)此進(jìn)行了深入研究:

“路線圖的另一部分是軟件。查看基準(zhǔn)測(cè)試結(jié)果、查看條形圖并假設(shè)它是硬件的速度很容易。但經(jīng)常被低估的是Nvidia在軟件堆棧中的投資。對(duì)于推理,你可以找到比訓(xùn)練中更多的優(yōu)化,因?yàn)槟阏谧叱鲎詈笠挥⒗铩R訦opper為例,我們剛剛發(fā)布了一款名為T(mén)ensorRT-LLM的新軟件。TensorRT是我們用于推理的優(yōu)化編譯器。我們?cè)谠撥浖羞M(jìn)行的優(yōu)化使Hopper的推理性能提高了一倍。這是通過(guò)一系列優(yōu)化實(shí)現(xiàn)的,對(duì)于tensor核心,它使用8位浮點(diǎn),它改進(jìn)了GPU資源的調(diào)度和管理?!?/p>

Jensen?Huang在Q3電話會(huì)議期間繼續(xù)討論這個(gè)話題:

“我們可以創(chuàng)建TensorRT-LLM,因?yàn)镃UDA是可編程的。如果CUDA和我們的GPU不那么可編程,我們真的很難按照我們的速度改進(jìn)軟件堆棧。同一GPU上的TensorRT-LLM將性能提高了兩倍,然后,H200將其提高了2倍。因此,我們的推理性能在大約一年的時(shí)間內(nèi)提高了4倍。所以很難跟上。大多數(shù)情況下,軟件受益于架構(gòu)。因此,出于這個(gè)原因,我們希望加快我們的路線圖。”

我們之前已經(jīng)討論過(guò)人工智能的軟件前景,以及Nvidia與其他公司相比如何領(lǐng)先十多年。這要?dú)w功于他們的CUDA計(jì)算平臺(tái)以及隨后集成到流行的基于Python/c ++?的訓(xùn)練庫(kù)?(如Tensorflow和Pytorch)?中。

競(jìng)爭(zhēng)對(duì)手正在緩慢但穩(wěn)步地趕上這一點(diǎn)。例如,AMD的競(jìng)爭(zhēng)對(duì)手ROCm平臺(tái)現(xiàn)在在Linux上享受Pytorch的本機(jī)支持,尚未在Mac或Windows上獲得支持。

然而,Nvidia CUDA現(xiàn)在也得到了Python的pandas的支持,這是用于數(shù)據(jù)預(yù)處理的關(guān)鍵軟件庫(kù),以及Apache Spark,這是數(shù)據(jù)流的主要庫(kù)。

Jensen在Q3電話會(huì)議上談到了這一點(diǎn):

“在訓(xùn)練模型之前,你必須整理數(shù)據(jù),也許你必須用合成數(shù)據(jù)來(lái)擴(kuò)充數(shù)據(jù),清理數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行規(guī)范化。所有這些數(shù)據(jù)都以TB和PB為單位。在數(shù)據(jù)工程之前,你所做的數(shù)據(jù)處理量相當(dāng)大,它可能占你最終所做工作量的30%到50%。我們加速Spark。我們加速Python。我們剛剛做的最酷的事情之一叫做cuDF pandas,沒(méi)有一行代碼,pandas現(xiàn)在被Nvidia CUDA加速了,開(kāi)箱即用。”

Nvidia構(gòu)建了從硬件到軟件的完整堆棧

Nvidia的最后一個(gè)優(yōu)勢(shì)是能夠?qū)⑺羞@些硬件和軟件集成到一個(gè)完整的堆棧中,從而可以輕松地在數(shù)據(jù)中心內(nèi)推出AI加速功能。

Nvidia擁有GPU,現(xiàn)在還有CPU,Mellanox (Nvidia的網(wǎng)絡(luò)業(yè)務(wù),包括Infiniband,現(xiàn)在還包括以太網(wǎng)),然后編寫(xiě)了無(wú)數(shù)的軟件包,使一切都易于使用。

Jensen在Q3電話會(huì)議上討論這個(gè)問(wèn)題:

“Nvidia存在于每個(gè)云中,但每個(gè)人的平臺(tái)都不同,但我們已經(jīng)集成到他們的所有堆棧中。我們與他們所有人合作得非常好。它包括我們創(chuàng)建的所有特定領(lǐng)域的庫(kù),這就是為什么每個(gè)計(jì)算機(jī)公司都可以不假思索地將Nvidia集成到他們的路線圖中的原因。我們擁有的特定領(lǐng)域庫(kù)的列表非常廣泛。最后,現(xiàn)在我們有一個(gè)面向數(shù)據(jù)中心的端到端解決方案: InfiniBand網(wǎng)絡(luò),以太網(wǎng)網(wǎng)絡(luò),x86,ARM,...。幾乎提供了技術(shù)解決方案和軟件堆棧的所有組合。但真正把它聯(lián)系在一起的是,這是我們幾十年前做出的一個(gè)偉大的決定,一切都是架構(gòu)兼容的?!?/p>

Ian?Buck在BoA會(huì)議上補(bǔ)充了一些進(jìn)一步的細(xì)節(jié):

“當(dāng)然,可以將一個(gè)AI工作負(fù)載放在任何人的硬件平臺(tái)上。困難的是使其成為一個(gè)持續(xù)優(yōu)化和發(fā)展的平臺(tái),并成為一個(gè)可以運(yùn)行數(shù)據(jù)中心內(nèi)運(yùn)行的所有工作負(fù)載的平臺(tái)。有這么多人在人工智能領(lǐng)域進(jìn)行創(chuàng)新,他們?cè)谶@里的創(chuàng)新速度比我們實(shí)際生產(chǎn)新架構(gòu)要快得多。在Nvidia工作的好處之一是,我們可以與所有不同的人工智能公司合作,因此我們可以?xún)?yōu)化重要的堆棧層。我們可以在硬件層、編譯器層、系統(tǒng)軟件層和庫(kù)層進(jìn)行創(chuàng)新。”

Nvidia HGX平臺(tái)的開(kāi)箱即用集成解決方案

客戶(hù)喜歡開(kāi)箱即用的集成解決方案。例如,目前絕大多數(shù)收入是由Nvidia的HGX平臺(tái)驅(qū)動(dòng)的?(來(lái)源: Nvidia的CFO)。

這就是為什么Microsoft能夠在其數(shù)據(jù)中心實(shí)現(xiàn)與Nvidia在自己的數(shù)據(jù)中心內(nèi)產(chǎn)生的相同出色的處理能力的原因之一。這種將所有內(nèi)容整合在一起的整體方法也很容易擴(kuò)展當(dāng)前的數(shù)據(jù)中心,這是LLM不斷增長(zhǎng)的重要要求。

為了說(shuō)明這一點(diǎn),Nvidia的HGX平臺(tái)是通過(guò)NVLink連接的一個(gè)基板上的八個(gè)H100 GPU的組合。其中32個(gè)平臺(tái)可以聯(lián)網(wǎng)在一起,總共256個(gè) GPU可以作為一個(gè)單元。NVLink的帶寬是最新一代PCIe的14倍,能夠每秒傳輸900GB。一個(gè)HGX平臺(tái)如何運(yùn)行的示意圖:

?萬(wàn)字長(zhǎng)文詳解英偉達(dá)遙遙領(lǐng)先的底層邏輯:AI快節(jié)奏創(chuàng)新的最大贏家!

在現(xiàn)實(shí)生活中,下面的主板插入了六個(gè)A100 GPU,還有兩個(gè)剩余的開(kāi)放插槽。這很容易插入服務(wù)器以連接到CPU 和網(wǎng)絡(luò)接口卡?(NIC)。

?萬(wàn)字長(zhǎng)文詳解英偉達(dá)遙遙領(lǐng)先的底層邏輯:AI快節(jié)奏創(chuàng)新的最大贏家!

總之,Nvidia不僅領(lǐng)先,而且在各個(gè)方面都在創(chuàng)新。即使是像AMD或英特爾這樣的大型競(jìng)爭(zhēng)對(duì)手也無(wú)法與這種創(chuàng)新步伐相提并論,更不用說(shuō)該領(lǐng)域的新手了。

稍后我們將更詳細(xì)地了解AMD,但Nvidia在研發(fā)方面甚至超過(guò)了這個(gè)大型競(jìng)爭(zhēng)對(duì)手,而前者也非常專(zhuān)注于CPU。

這意味著與AMD相比,Nvidia可以將更多的研發(fā)資金集中在CPU上,因此純粹在這一領(lǐng)域的差異將更加明顯:

?萬(wàn)字長(zhǎng)文詳解英偉達(dá)遙遙領(lǐng)先的底層邏輯:AI快節(jié)奏創(chuàng)新的最大贏家!

Nvidia在即將到來(lái)的推理市場(chǎng)中的優(yōu)勢(shì)

Copilots將驅(qū)動(dòng)龐大的推理需求

到目前為止,Nvidia的大部分GPU收入都是由AI訓(xùn)練推動(dòng)的。但是,我們現(xiàn)在正在進(jìn)入下一個(gè)階段,即部署經(jīng)過(guò)訓(xùn)練的大型語(yǔ)言模型進(jìn)行推理。

Nvidia的CFO詳細(xì)介紹了這一新的需求來(lái)源:

“推理正在為我們的數(shù)據(jù)中心需求做出重大貢獻(xiàn),因?yàn)槿斯ぶ悄墁F(xiàn)在已經(jīng)全面投入生產(chǎn),用于深度學(xué)習(xí)推薦器、聊天、副駕駛和文本到圖像生成。而這僅僅是個(gè)開(kāi)始。Nvidia AI提供最佳的推理性能和多功能性,因此擁有成本最低。我們也在快速降低成本。

我們已經(jīng)在上面討論了公司的快速創(chuàng)新曲線。

Ian Buck還詳細(xì)介紹了,Nvidia計(jì)劃如何在推理方面處于領(lǐng)先地位:

“訓(xùn)練和推理是高度相關(guān)的,為了訓(xùn)練一個(gè)模型,你必須首先推斷和計(jì)算誤差,然后將誤差應(yīng)用回模型,使其更智能。因此,訓(xùn)練的第一步是推理,因此客戶(hù)很自然地將他們的推理模型與他們的訓(xùn)練集群以及他們的HGX一起部署。我們的推理平臺(tái)包含多種選擇,可針對(duì)TCO、工作負(fù)載和性能進(jìn)行優(yōu)化。在推理的情況下,它通常與數(shù)據(jù)中心吞吐量和延遲有關(guān)。您有L40S,它通常用于較大的推理和微調(diào)任務(wù)。因此,您可以采用現(xiàn)有的基礎(chǔ)模型,然后對(duì)其進(jìn)行微調(diào),以便為您的數(shù)據(jù)工作負(fù)載進(jìn)行最后一英里的專(zhuān)業(yè)化處理。通過(guò)將它們與NVLink連接,我們基本上可以將八個(gè)GPU變成一個(gè)GPU,并以更快的速度運(yùn)行模型以提供實(shí)時(shí)延遲?!?/p>

為了使推理成為一個(gè)龐大的市場(chǎng),我們將需要一個(gè)愿意為L(zhǎng)LM類(lèi)型的助手或門(mén)戶(hù)付費(fèi)的龐大用戶(hù)群。其中最有前途的是Copilots,它是內(nèi)置在軟件應(yīng)用程序中的LLM,在用戶(hù)的命令下可以自動(dòng)執(zhí)行各種任務(wù),從而提高生產(chǎn)力。

例如,LLMs可以生成新的軟件代碼,根據(jù)提供的信息創(chuàng)建新的幻燈片,或創(chuàng)建各種excel公式和操作。這使得更廣泛的員工可以使用高級(jí)軟件,因?yàn)槟F(xiàn)在可以基于文本進(jìn)行交互,而不必制定SQL查詢(xún),這顯然并不適合所有人。再舉一個(gè)例子,您可以在Google地圖中內(nèi)置一個(gè)LLM,它突出顯示了城市旅行期間的最佳景點(diǎn),同時(shí)還為您預(yù)訂了合適的酒店和晚餐地點(diǎn)。這些副駕駛中較小的可以在您的設(shè)備上運(yùn)行,而較大的將在云中運(yùn)行。因此,除了OpenAI的GPT4和Google的Gemini等大型基礎(chǔ)模型外,公司還將為其應(yīng)用程序提供更小的定制Copilots。

Nvidia?AI foundry定制模型的價(jià)值

Nvidia多年來(lái)一直致力于進(jìn)一步進(jìn)軍軟件領(lǐng)域,因此他們?cè)谶@里建立了定制AI模型的服務(wù)也就不足為奇了。

AI foundry是一個(gè)云平臺(tái),客戶(hù)可以在其中定制Nvidia提供的基礎(chǔ)模型。這與Amazon Bedrock非常相似。

CFO在第三季度電話會(huì)議上討論了這一點(diǎn):

“在上周的Microsoft Ignite上,我們?cè)谡麄€(gè)堆棧中加深并擴(kuò)展了與Microsoft的合作。我們引入了AI foundry服務(wù),用于開(kāi)發(fā)和調(diào)優(yōu)在Azure上運(yùn)行的自定義生成AI應(yīng)用程序??蛻?hù)可以帶來(lái)他們的領(lǐng)域知識(shí)和專(zhuān)有數(shù)據(jù),我們幫助他們使用我們的AI專(zhuān)業(yè)知識(shí)和DGX云中的軟件堆棧構(gòu)建他們的AI模型。SAP和Amdocs是Microsoft Azure的首批客戶(hù)?!?/p>

Jensen提供了一些進(jìn)一步的細(xì)節(jié):

?“我們的盈利模式是,我們的每個(gè)合作伙伴,他們?cè)贒GX云上租用一個(gè)沙盒,我們?cè)谀抢镆黄鸸ぷ?。我們幫助他們?gòu)建自定義AI。然后,客戶(hù)AI成為他們的,他們將其部署在運(yùn)行時(shí),可以跨越 Nvidia 的所有內(nèi)容。我們?cè)谠贫?、本地、任何地方都有龐大的安裝基礎(chǔ)。我們稱(chēng)之為Nvidia AI Enterprise。我們的商業(yè)模式基本上是軟件許可證。然后,我們的客戶(hù)可以在此基礎(chǔ)上構(gòu)建他們的貨幣化模型?!?/p>

因此,Nvidia構(gòu)建了一個(gè)針對(duì)AI加速進(jìn)行優(yōu)化的完整硬件和軟件堆棧,客戶(hù)可以利用該平臺(tái)在上面運(yùn)行其定制的 AI。

這應(yīng)該很有意義。英偉達(dá)在人工智能模型構(gòu)建方面似乎也有強(qiáng)大的能力,因?yàn)槊焚惖滤购推渌?chē)制造商現(xiàn)在正在利用該公司的自動(dòng)駕駛軟件平臺(tái)。作為回報(bào),梅賽德斯甚至給了英偉達(dá)50%的自動(dòng)駕駛業(yè)務(wù)收入份額。

Nvidia在推理市場(chǎng)將占據(jù)大量份額

Ian?Buck對(duì)LLMs的下一步發(fā)展發(fā)表了自己的看法:

“GPT如此之大的原因之一是,它是在人類(lèi)理解的語(yǔ)料庫(kù)上訓(xùn)練的。因此,當(dāng)你問(wèn)及容量以及容量將如何隨著時(shí)間的推移而增長(zhǎng)時(shí),不會(huì)有一種模型來(lái)統(tǒng)領(lǐng)所有這些?;趯⒗^續(xù)在這個(gè)領(lǐng)域進(jìn)行的創(chuàng)新,以及所有這些領(lǐng)域的專(zhuān)業(yè)化,將會(huì)有各種各樣的不同模型。大型語(yǔ)言模型不必只是人類(lèi)的語(yǔ)言,它可以是生物學(xué),物理學(xué)或材料科學(xué)的語(yǔ)言。我們看到專(zhuān)業(yè)的區(qū)域GPU數(shù)據(jù)中心隨處可見(jiàn)。我們已經(jīng)從數(shù)據(jù)中心的一個(gè)角落變成了現(xiàn)在正在設(shè)計(jì)的數(shù)據(jù)中心?!?/p>

綜上所述,我認(rèn)為Nvidia在推理市場(chǎng)上也應(yīng)該處于強(qiáng)勢(shì)地位,盡管我預(yù)計(jì)這里的一些主要競(jìng)爭(zhēng)對(duì)手能夠占據(jù)一些份額,這是他們迄今為止在人工智能訓(xùn)練中一直在努力解決的問(wèn)題。

因此,Nvidia在這一領(lǐng)域的市場(chǎng)份額不應(yīng)該像他們?cè)谌斯ぶ悄苡?xùn)練領(lǐng)域80%的份額那樣占據(jù)主導(dǎo)地位,但他們應(yīng)該處于有利地位,仍然可以占據(jù)很大的市場(chǎng)份額。

AMD和英特爾仍然遠(yuǎn)遠(yuǎn)落后

AMD確實(shí)一直在追趕,他們?cè)谲浖矫婧陀布矫娑歼h(yuǎn)遠(yuǎn)落后,他們沒(méi)有參加MLPerf基準(zhǔn)測(cè)試,也沒(méi)有獲得任何訂單。

英特爾一直在MLPerf上競(jìng)爭(zhēng),但通常會(huì)被Nvidia硬件的優(yōu)勢(shì)所淘汰。今年早些時(shí)候的測(cè)試結(jié)果如下所示。

請(qǐng)注意,英特爾沒(méi)有參加八項(xiàng)測(cè)試中的四項(xiàng),這說(shuō)明了Nvidia GPU的多功能性,它們能夠在每種類(lèi)型的AI工作負(fù)載上產(chǎn)生最佳結(jié)果。

?萬(wàn)字長(zhǎng)文詳解英偉達(dá)遙遙領(lǐng)先的底層邏輯:AI快節(jié)奏創(chuàng)新的最大贏家!

然而,最近英特爾再次參加 GPT3 測(cè)試,他們縮小了表現(xiàn)不佳的差距。

來(lái)自《福布斯》:

“根據(jù)英特爾的計(jì)算,增加對(duì)FP8的支持使Habana Gaudi 2的性能提高了一倍,使其達(dá)到Nvidia H100每節(jié)點(diǎn)結(jié)果的50%左右。英特爾聲稱(chēng),這等同于卓越的性?xún)r(jià)比,我們通過(guò)渠道檢查驗(yàn)證了這一點(diǎn),這表明Gaudi 2的性能相當(dāng)不錯(cuò),并且比Nvidia更實(shí)惠和可用。這些結(jié)果應(yīng)該有助于為2024年的Gaudi 2鋪平道路。但當(dāng)然,到那時(shí),英特爾將不得不與Nvidia的下一代GPU B100?(又名Blackwell)?競(jìng)爭(zhēng)。”

英特爾展示了他們?cè)诎隧?xiàng)測(cè)試中的四項(xiàng)測(cè)試中的結(jié)果:

?萬(wàn)字長(zhǎng)文詳解英偉達(dá)遙遙領(lǐng)先的底層邏輯:AI快節(jié)奏創(chuàng)新的最大贏家!

因此,英特爾在 GPT3 上實(shí)現(xiàn)更好的性?xún)r(jià)比是一個(gè)有趣的結(jié)果,然而,這在多大程度上導(dǎo)致訂單增長(zhǎng)仍然值得懷疑。

英特爾在他們的Q3電話會(huì)議上提到,他們的管道翻了一番,但這將是一個(gè)非常低的基數(shù)。

稍微好一點(diǎn)的是,AMD計(jì)劃在明年使用其新的MI300 GPU實(shí)現(xiàn)20億美元的收入,但與Nvidia目前在數(shù)據(jù)中心GPU中每年產(chǎn)生的560億美元相比,這幾乎是杯水車(chē)薪。

然而,瑞銀在其技術(shù)會(huì)議上提到,AMD目前獲得的訂單是Nvidia的10%。這樣的份額對(duì)于AMD來(lái)說(shuō)非常有吸引力,但目前他們?cè)贖BM和帶寬方面擁有優(yōu)勢(shì),他們的MI300現(xiàn)在開(kāi)始發(fā)貨。Nvidia將在未來(lái)12個(gè)月內(nèi)發(fā)布兩個(gè)GPU,這可能會(huì)再次縮小AMD的份額。

AMD的MI300可能主要用于推理工作負(fù)載,Lisa Su在電話會(huì)議上也提到了這一點(diǎn):?“我們對(duì)MI300的推理性能非常滿(mǎn)意,特別是對(duì)于大型語(yǔ)言模型的推理,我們給出了一些內(nèi)存帶寬和內(nèi)存容量。我們認(rèn)為這對(duì)我們來(lái)說(shuō)將是一個(gè)巨大的工作量?!?/p>

顯然,與Nvidia相比,這兩個(gè)競(jìng)爭(zhēng)對(duì)手的份額仍然很小,我懷疑在未來(lái)兩到三年內(nèi)情況仍然如此。

從長(zhǎng)遠(yuǎn)來(lái)看,隨著英特爾和AMD不斷構(gòu)建其軟件堆棧,并能夠構(gòu)建更好、更通用的硬件,應(yīng)該有空間在數(shù)據(jù)中心GPU市場(chǎng)中占據(jù)更大的份額。

也許他們真正需要的是放慢人工智能創(chuàng)新的步伐,因?yàn)槟壳癗vidia似乎是唯一真正能夠構(gòu)建合適的硬件來(lái)運(yùn)行最新模型的公司。人工智能的快速創(chuàng)新確實(shí)是Nvidia的優(yōu)勢(shì),因?yàn)樗麄兌紦碛锌焖侔l(fā)展并跟上人工智能行業(yè)步伐的堆棧和規(guī)模。

科技巨頭的定制芯片將成為更有實(shí)力的競(jìng)爭(zhēng)對(duì)手

超大規(guī)模企業(yè)正在提供定制的芯片解決方案,以滿(mǎn)足客戶(hù)的AI需求。

眾所周知,Google擁有TPU,盡管該TPU主要仍用于公司的內(nèi)部工作負(fù)載;Amazon提供Trainium和Inferentia,Microsoft最近宣布了Maia。

通常,超大規(guī)模提供商還將提供編譯器,以便您可以在其芯片上運(yùn)行Pytorch代碼。就目前使用的這種芯片而言,它主要用于推理工作負(fù)載。

Nvidia的GPU仍然供不應(yīng)求,因此目前正在將這些GPU分配給訓(xùn)練,而推理在可用的芯片上運(yùn)行。

例如,騰訊和百度在最近的電話會(huì)議中都發(fā)表了類(lèi)似的評(píng)論,他們正在尋找國(guó)產(chǎn)芯片來(lái)運(yùn)行他們的推理,同時(shí)保留他們的Nvidia進(jìn)行所有訓(xùn)練。

當(dāng)然,超大規(guī)模企業(yè)財(cái)力雄厚,他們也應(yīng)該能夠保持體面的創(chuàng)新節(jié)奏。

例如,Amazon將在明年發(fā)布Trainium 2和Inferentia 3。但是,請(qǐng)注意,Google每?jī)赡曜笥野l(fā)布一次新的TPU,目前已經(jīng)是第五代,而與Nvidia競(jìng)爭(zhēng)的能力仍然有限。

請(qǐng)注意,Amazon最近在最新的芯片征集中引用了一些人工智能的勝利:?

“正如大多數(shù)人所知,芯片行業(yè)目前確實(shí)存在短缺。很難獲得每個(gè)人都想要的GPU數(shù)量。因此,這就是Trainium和Inferentia對(duì)人們?nèi)绱擞形Φ牧硪粋€(gè)原因。它們比其他選項(xiàng)具有更好的性?xún)r(jià)比特征,而且您可以訪問(wèn)它們。因此,您會(huì)看到非常大的LLM提供商在這些芯片上下了大賭注。我認(rèn)為,Anthropic決定在Trainium上訓(xùn)練他們未來(lái)的LLM模型并使用Inferentia確實(shí)是一個(gè)聲明。然后你看看真正炙手可熱的創(chuàng)業(yè)公司Perplexity.ai,他們也剛剛決定在 Trainium 和 Inferentia 之上進(jìn)行所有訓(xùn)練和推理。所以這是兩個(gè)例子?”

然而,Dylan?Patel的SemiAnalysis指出,亞馬遜正在利用這些芯片作為虧損的領(lǐng)導(dǎo)者:

“值得注意的是,亞馬遜正在購(gòu)買(mǎi)和部署更多的Trainium和Inferentia 2芯片,盡管它們不如Microsoft的Maia。這是因?yàn)閬嗰R遜的Nvidia GPU分配相對(duì)較低,也因?yàn)閬嗰R遜相信補(bǔ)貼自己的部分來(lái)推動(dòng)外部生態(tài)系統(tǒng)的發(fā)展。與此形成鮮明對(duì)比的是Microsoft,其AI加速器主要用于內(nèi)部工作負(fù)載,因?yàn)樗麄儗?shí)際上擁有強(qiáng)大的AI服務(wù)和API業(yè)務(wù)。這意味著Microsoft將選擇最好的TCO芯片,而不是補(bǔ)貼像亞馬遜這樣的虧損領(lǐng)導(dǎo)者?!?/p>

同一篇文章提到,與AMD和Nvidia的訂單相比,Microsoft對(duì)Maia 100的訂單相當(dāng)?shù)汀?/p>

AI快節(jié)奏創(chuàng)新的最大贏家——Nvidia

因此,目前我們的情況是,Nvidia的競(jìng)爭(zhēng)對(duì)手正在出現(xiàn),但人工智能創(chuàng)新的快節(jié)奏對(duì)Nvidia有利——競(jìng)爭(zhēng)對(duì)手很難追逐快速發(fā)展的目標(biāo)。

Nvidia擁有規(guī)模,人才和堆棧,可以針對(duì)AI的最新創(chuàng)新進(jìn)行快速創(chuàng)新和優(yōu)化。

公共云由亞馬遜、Microsoft和谷歌這三大巨頭主導(dǎo),它們可以利用自己的強(qiáng)勢(shì)地位在各自的云上推廣自己的定制芯片。例如,例如通過(guò)有吸引力的價(jià)格,如上面的SemiAnalysis所指出的那樣。這意味著從長(zhǎng)遠(yuǎn)來(lái)看,它們可能會(huì)對(duì)Nvidia構(gòu)成更激烈的競(jìng)爭(zhēng),尤其是在人工智能創(chuàng)新步伐放緩的情況下。

然而,快速的創(chuàng)新可能會(huì)持續(xù)幾十年。以物理學(xué)為例,愛(ài)因斯坦在1905年的奇跡年開(kāi)始了快速的發(fā)現(xiàn),一直持續(xù)到20世紀(jì)60年代。

原文鏈接:

https://www.techfund.one/p/nvidia-amd-and-the-ai-cycle

轉(zhuǎn)載請(qǐng)注明來(lái)自杭州安米通儀器設(shè)備有限公司,本文標(biāo)題:《?萬(wàn)字長(zhǎng)文詳解英偉達(dá)遙遙領(lǐng)先的底層邏輯:AI快節(jié)奏創(chuàng)新的最大贏家!》

百度分享代碼,如果開(kāi)啟HTTPS請(qǐng)參考李洋個(gè)人博客
每一天,每一秒,你所做的決定都會(huì)改變你的人生!

發(fā)表評(píng)論

快捷回復(fù):

評(píng)論列表 (暫無(wú)評(píng)論,20人圍觀)參與討論

還沒(méi)有評(píng)論,來(lái)說(shuō)兩句吧...

Top