欧美日本亚洲国产_欧美日韩高清福利区_亚洲日精品一区在线观看_亚洲国产精品热久久2022_欧美美女被操网站_中文字幕日韩精品网站_最近中文字幕大全_精品国产福利在线观看91帕_美女黄色视频大全集_国内在线视频一区

GPT-4o“成精了”:推測(cè)技術(shù)原理,附送“美國(guó)灣區(qū)”小道消息

GPT-4o“成精了”:推測(cè)技術(shù)原理,附送“美國(guó)灣區(qū)”小道消息

zhangyatai 2025-03-02 社會(huì) 14 次瀏覽 0個(gè)評(píng)論

原創(chuàng) 親愛的數(shù)據(jù) 親愛的數(shù)據(jù)

GPT-4o“成精了”:推測(cè)技術(shù)原理,附送“美國(guó)灣區(qū)”小道消息

原創(chuàng):譚婧

如果你能跟上技術(shù)發(fā)展,那大多數(shù)技術(shù)提升都是按部就班,

偶而會(huì)有突破性進(jìn)展。

如果你僅僅吃瓜,那OpenAI的所有新聞,

你都可以寫成:

“改寫歷史”“干翻所有”“顛覆世界”。

真的顛覆世界了嗎?

并沒有。

按照正常進(jìn)步速度和合理預(yù)期,

多模態(tài)大模型的性能必然會(huì)在2024上半年提升一步。

而且這一步大概率是閉源廠商引領(lǐng)。

毫不意外,模型GPT-4o被最先做出來了。

“Scaling laws依然奏效?!?/p>

美國(guó)國(guó)家工程院院士李飛飛教授的話又在耳旁想起。

無可否認(rèn),AI大模型的高速動(dòng)蕩發(fā)展期,

“突破”發(fā)生的頻次高一些。

但到底值不值得說顛覆,

讀完這篇文章,不如讀者自己給出答案。

按照百圖生科首席科學(xué)家宋樂對(duì)我說的原話就是:

“Only technical people knows what’s new”。

這句話的土味翻譯是,

只有懂行的,才知道什么是新的。

那些不了解來龍去脈的人。

只能高呼:“太厲害了”。

是挺厲害的,然后呢?

然后就沒有然后了。

另外,那些寫OpenAI如何厲害,

偷笑揶揄谷歌的人,

應(yīng)該每時(shí)每刻都記起一個(gè)事實(shí)。

變形金剛(Transformer)是谷歌發(fā)明的。

很明顯,OpenAI處處叫板谷歌,

無論從發(fā)布會(huì)的時(shí)間,還是從技術(shù)路線的攀升上。

谷歌的現(xiàn)狀固然令人唏噓,

但也不是被打倒在地,滿地找牙。

還有很多人,

根本沒有機(jī)會(huì)擠進(jìn)時(shí)代的鏡頭。

2023年底谷歌Gemini發(fā)布,

很多人質(zhì)疑谷歌演示視頻造假,

但很多人無視了谷歌的雄心。

它想造多模態(tài)大模型。

圖文音共同加持通用大模型,呼之欲出。

今天,谷歌去年的“錄制視頻”,

被OpenAI用幾乎沒有延遲的實(shí)時(shí)演示“復(fù)現(xiàn)”了。

往細(xì)致里說,谷歌發(fā)布的Gemini以“模型能力+少量后期剪輯”的方式,

展現(xiàn)了端到端多模態(tài)大模型巨大的想象空間。

而想象力空間里的期待,

五個(gè)月后,被OpenAI實(shí)現(xiàn)了。

確實(shí)是很厲害,

但我只能說,

OpenAI也是一家沒有擺脫谷歌影響力的科技公司。

這里,我再講一個(gè)“美國(guó)灣區(qū)傳聞”:

今天發(fā)布的GPT-4o,有可能是一個(gè)沒有煉好的GPT-4.5。

有沒有可能,在地球上的某一個(gè)角落,有這樣一輪對(duì)話:

員工問Leader:

“怎么截胡谷歌?

我們的GPT-4.5沒有煉好。”

那位著名的Leader沉思片刻:

“那就先搞多模態(tài)的那個(gè)版本的功能,

然后在2024 Spring放出來吧?!?/p>

段子畢竟是段子。

笑笑,罷了。

再來一個(gè)“時(shí)間線索”,來自O(shè)penAI API文檔:

GPT-4o“成精了”:推測(cè)技術(shù)原理,附送“美國(guó)灣區(qū)”小道消息

下面,我們看看GPT-4o背后的算力。

2024年4月25日,

據(jù)OpenAI 總裁兼聯(lián)合創(chuàng)辦人布羅克曼(Greg Brockman)透露,

英偉達(dá)向該公司移交全球第一臺(tái)DGX H200。

好貨果然特供頭部。

GPT-4o“成精了”:推測(cè)技術(shù)原理,附送“美國(guó)灣區(qū)”小道消息

這個(gè)是目前世界上最強(qiáng)的人工智能硬件。

比起上一代H100相比,H200在內(nèi)存方面狠狠地“一把給夠”。

內(nèi)存帶寬增加 1.4 倍,

內(nèi)存容量增加 1.8 倍,

總內(nèi)存帶寬達(dá)到 4.8 TB/秒,

內(nèi)存容量達(dá)到 141GB。

有了這個(gè)玩意,還在KV Cache上繡什么花呢?

N種模態(tài)的token一起搞也不怕了。

效率杠杠的。

什么內(nèi)存瓶頸就是最大的瓶頸,

不存在的。

OpenAI的科學(xué)家可能會(huì)說,

這是你的瓶頸,不是我的瓶頸。

芯片強(qiáng),就是這么豪橫。

搞得譚老師我好想去美國(guó)“偷”東西,

還好我有法律觀念。

有了H200,搞GPT-4o不香嗎?

說完硬件,來說一下多模態(tài)大模型最核心的模型設(shè)計(jì)部分。

也就是說,“賈維斯”上線,“HER”闖入生活的背后,

是什么樣的模型架構(gòu)在支持。

首先,肯定是一個(gè)原生的多模型大模型。

其次,圖像,音頻兩個(gè)模態(tài)對(duì)齊于語(yǔ)言大模型。

從音頻角度來講,沒有語(yǔ)言識(shí)別,沒有語(yǔ)音合成,

因?yàn)橐纛l數(shù)據(jù)已經(jīng)能被當(dāng)作token來直接理解了。

正是在這種前提下,

在短短232毫秒內(nèi),GPT-4o就能對(duì)音頻輸入做出反應(yīng)。

大家會(huì)說,像人的反應(yīng)一樣快。

視覺信息亦如此。

Voken(Visual Token)這種特殊的Token。

已經(jīng)能處理得很好了。

它甚至可以被隨時(shí)打斷,

模型在一邊生成,一邊感知。

也就是,邊聽邊處理,邊看邊處理。

畢竟,ViT很好用。

ViT可以用一個(gè)已經(jīng)訓(xùn)練好的,

LLM也可以用一個(gè)已經(jīng)訓(xùn)練好的,

只去搭建并訓(xùn)練中間的過渡層就可以了。

這些成熟的東西,在2023年已經(jīng)鋪墊得很充分了。

LLAVA系列都做得很好了。

我相信OpenAI還能有辦法做得更好,

畢竟,那么多聰明的腦袋在里面努力。

同時(shí),我們還要清楚地認(rèn)識(shí)到。

圖像,音頻兩個(gè)模態(tài)的數(shù)據(jù)量可比文字文本的大多了。

非常消耗算力。

這一點(diǎn)又給算力不足的人,迎頭痛擊。

考慮到OpenAI不缺算力,那多模態(tài)訓(xùn)練數(shù)據(jù)量大的問題,

也不再是一個(gè)問題。

緊接著,

我再來用比較專業(yè)的方式,

把GPT-4o厲害之處總結(jié)一遍:

第一,看模型算法。

GPT-4o作為OpenAI的首個(gè)“端到端多模態(tài)大模型”,

在理解側(cè)和生成側(cè)原生支持語(yǔ)音、視覺、文本等模態(tài),

將語(yǔ)音交互延時(shí)縮短到300ms左右,

這意味著向自然人機(jī)交互,而是以非常舒服地交互方式,

邁進(jìn)了重要的一步。

此前,生硬呆板地交互與之相比,

是兩個(gè)時(shí)期的產(chǎn)物。

后者,我就叫它“爽感交互”吧。

第二,看推理。

在“爽感交互”的情況下,

GPT-4o同時(shí)達(dá)到了與GPT-4 Turbo相當(dāng)?shù)哪芰?0%的推理成本,

商業(yè)推廣和落地的空間一下就打開了。

GPT-4o的API當(dāng)前僅支持文本和圖像輸入,

但從demo效果推測(cè),

其在音頻和視頻的流式處理機(jī)制方面應(yīng)存在獨(dú)特之處,

已從當(dāng)前主流的獨(dú)立模態(tài)方式升級(jí)為并行處理模式。

AI Infra基礎(chǔ)設(shè)施團(tuán)隊(duì),功不可沒。

最后,如果你想一口氣了解多模態(tài)去年的全年進(jìn)展,

我有一篇文章推薦,

很長(zhǎng),專為“收藏夾吃灰”而生。

如果在朋友圈轉(zhuǎn)發(fā),

你的朋友大概率會(huì)說,

哇撒,好厲害。

然后,就沒有然后了。

(完)

One More Thing

譚老師我,頭發(fā)掉得很厲害,

實(shí)在熬不了夜了。

今天早上起床后,看了昨晚的活動(dòng)視頻。

第一個(gè)電話打給武漢人工智能研究院易東博士。

第二個(gè)電話到美國(guó)。

我和易東博士聊起GPT-4o里的o是什么?

O是單詞"Omni"的首字母。

中文意思——全能。

聊到這,我倆都笑了,

也說不清是傻笑,還是苦笑。

也是同樣一個(gè)o,

時(shí)間可以追溯時(shí)間2021年7月,

OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation

這篇可以稱為為國(guó)產(chǎn)紫東太初大模型打下多模態(tài)理解基礎(chǔ)的論文,

這里的OPT的O,也是Omni。

這篇齊集武漢人工智能研究院王金橋,

劉靜博士,張家俊博士三位大神的論文。

曾被我稱為,保據(jù)“三模態(tài)”,深挖護(hù)城河。

方向就是這個(gè)方向,

把圖像,音頻兩個(gè)模態(tài)對(duì)齊于文本,

統(tǒng)一在語(yǔ)言空間。

不是想不到,而是資源不到。

華為盤古的消息,

更是不準(zhǔn)發(fā),所以不能寫。

但我想說的是,

沒有落后很多,

追上去,尚有可能。

另外,紫東太初最近會(huì)有大事公布,

但我沒有權(quán)利提前泄露此事。

總會(huì)知道的,

等新番更新吧。

只能聊到這里了,

要關(guān)電腦了。

下午,騰訊混元大模型有個(gè)內(nèi)部交流會(huì),

我接到線報(bào),騰訊混元團(tuán)隊(duì)的蘆清林,

會(huì)在北京市朝陽(yáng)區(qū)天辰東路1號(hào)院的亞洲金融大廈出現(xiàn)。

我得去堵他。

拜了個(gè)拜。

(完)

GPT-4o“成精了”:推測(cè)技術(shù)原理,附送“美國(guó)灣區(qū)”小道消息

《我看見了風(fēng)暴:人工智能基建革命》,

作者:譚婧

原標(biāo)題:《GPT-4o“成精了”:推測(cè)技術(shù)原理,附送“美國(guó)灣區(qū)”小道消息》

閱讀原文

轉(zhuǎn)載請(qǐng)注明來自杭州安米通儀器設(shè)備有限公司,本文標(biāo)題:《GPT-4o“成精了”:推測(cè)技術(shù)原理,附送“美國(guó)灣區(qū)”小道消息》

百度分享代碼,如果開啟HTTPS請(qǐng)參考李洋個(gè)人博客
每一天,每一秒,你所做的決定都會(huì)改變你的人生!

發(fā)表評(píng)論

快捷回復(fù):

評(píng)論列表 (暫無評(píng)論,14人圍觀)參與討論

還沒有評(píng)論,來說兩句吧...

Top
 公主抖音最新版  安平砍樹視頻最新版  欽州商鋪?zhàn)钚抡凶饩W(wǎng)  拳王最新的電影  武安市最新防疫信息通告  鞍鋼機(jī)床招標(biāo)公告網(wǎng)最新  最新版本夢(mèng)中那片海下載  涿鹿高速最新信息  世界2020最新版  光影最新版1.9.2  南昌萬和苑最新房?jī)r(jià)信息  最新的泰坦  蓮都區(qū)的房?jī)r(jià)最新的樓盤  商洛煤炭求購(gòu)網(wǎng)官網(wǎng)最新  新絳最新招聘信息  在我們之間最新版的英文  海陵區(qū)的最新視頻  德州招牌通知網(wǎng)最新  臺(tái)山商鋪售價(jià)查詢網(wǎng)最新  蘇州快遞官網(wǎng)最新信息  仟佰間最新官網(wǎng)  forge1.7.10最新版  內(nèi)測(cè)bug最新版  河津美容店轉(zhuǎn)讓信息最新  網(wǎng)中人最新消息  田川最新的視頻  北京達(dá)人最新信息  百家姓最新版打印  邯鄲房子最新信息  東莞最新窗簾招聘網(wǎng)