您現(xiàn)在的位置：首頁(yè)社會(huì) GPT-4o“成精了”：推測(cè)技術(shù)原理，附送“美國(guó)灣區(qū)”小道消息

GPT-4o“成精了”：推測(cè)技術(shù)原理，附送“美國(guó)灣區(qū)”小道消息

zhangyatai 2025-03-02 社會(huì) 14 次瀏覽 0個(gè)評(píng)論

原創(chuàng) 親愛的數(shù)據(jù) 親愛的數(shù)據(jù)

GPT-4o“成精了”：推測(cè)技術(shù)原理，附送“美國(guó)灣區(qū)”小道消息

原創(chuàng)：譚婧

如果你能跟上技術(shù)發(fā)展，那大多數(shù)技術(shù)提升都是按部就班，

偶而會(huì)有突破性進(jìn)展。

如果你僅僅吃瓜，那OpenAI的所有新聞，

你都可以寫成：

“改寫歷史”“干翻所有”“顛覆世界”。

真的顛覆世界了嗎？

并沒有。

按照正常進(jìn)步速度和合理預(yù)期，

多模態(tài)大模型的性能必然會(huì)在2024上半年提升一步。

而且這一步大概率是閉源廠商引領(lǐng)。

毫不意外，模型GPT-4o被最先做出來了。

“Scaling laws依然奏效?！?/p>

美國(guó)國(guó)家工程院院士李飛飛教授的話又在耳旁想起。

無可否認(rèn)，AI大模型的高速動(dòng)蕩發(fā)展期，

“突破”發(fā)生的頻次高一些。

但到底值不值得說顛覆，

讀完這篇文章，不如讀者自己給出答案。

按照百圖生科首席科學(xué)家宋樂對(duì)我說的原話就是：

“Only technical people knows what’s new”。

這句話的土味翻譯是，

只有懂行的，才知道什么是新的。

那些不了解來龍去脈的人。

只能高呼：“太厲害了”。

是挺厲害的，然后呢？

然后就沒有然后了。

另外，那些寫OpenAI如何厲害，

偷笑揶揄谷歌的人，

應(yīng)該每時(shí)每刻都記起一個(gè)事實(shí)。

變形金剛（Transformer）是谷歌發(fā)明的。

很明顯，OpenAI處處叫板谷歌，

無論從發(fā)布會(huì)的時(shí)間，還是從技術(shù)路線的攀升上。

谷歌的現(xiàn)狀固然令人唏噓，

但也不是被打倒在地，滿地找牙。

還有很多人，

根本沒有機(jī)會(huì)擠進(jìn)時(shí)代的鏡頭。

2023年底谷歌Gemini發(fā)布，

很多人質(zhì)疑谷歌演示視頻造假，

但很多人無視了谷歌的雄心。

它想造多模態(tài)大模型。

圖文音共同加持通用大模型，呼之欲出。

今天，谷歌去年的“錄制視頻”，

被OpenAI用幾乎沒有延遲的實(shí)時(shí)演示“復(fù)現(xiàn)”了。

往細(xì)致里說，谷歌發(fā)布的Gemini以“模型能力+少量后期剪輯”的方式，

展現(xiàn)了端到端多模態(tài)大模型巨大的想象空間。

而想象力空間里的期待，

五個(gè)月后，被OpenAI實(shí)現(xiàn)了。

確實(shí)是很厲害，

但我只能說，

OpenAI也是一家沒有擺脫谷歌影響力的科技公司。

這里，我再講一個(gè)“美國(guó)灣區(qū)傳聞”：

今天發(fā)布的GPT-4o，有可能是一個(gè)沒有煉好的GPT-4.5。

有沒有可能，在地球上的某一個(gè)角落，有這樣一輪對(duì)話：

員工問Leader：

“怎么截胡谷歌？

我們的GPT-4.5沒有煉好。”

那位著名的Leader沉思片刻：

“那就先搞多模態(tài)的那個(gè)版本的功能，

然后在2024 Spring放出來吧?！?/p>

段子畢竟是段子。

笑笑，罷了。

再來一個(gè)“時(shí)間線索”，來自O(shè)penAI API文檔：

下面，我們看看GPT-4o背后的算力。

2024年4月25日，

據(jù)OpenAI 總裁兼聯(lián)合創(chuàng)辦人布羅克曼（Greg Brockman）透露，

英偉達(dá)向該公司移交全球第一臺(tái)DGX H200。

好貨果然特供頭部。

這個(gè)是目前世界上最強(qiáng)的人工智能硬件。

比起上一代H100相比，H200在內(nèi)存方面狠狠地“一把給夠”。

內(nèi)存帶寬增加 1.4 倍，

內(nèi)存容量增加 1.8 倍，

總內(nèi)存帶寬達(dá)到 4.8 TB/秒，

內(nèi)存容量達(dá)到 141GB。

有了這個(gè)玩意，還在KV Cache上繡什么花呢？

N種模態(tài)的token一起搞也不怕了。

效率杠杠的。

什么內(nèi)存瓶頸就是最大的瓶頸，

不存在的。

OpenAI的科學(xué)家可能會(huì)說，

這是你的瓶頸，不是我的瓶頸。

芯片強(qiáng)，就是這么豪橫。

搞得譚老師我好想去美國(guó)“偷”東西，

還好我有法律觀念。

有了H200，搞GPT-4o不香嗎？

說完硬件，來說一下多模態(tài)大模型最核心的模型設(shè)計(jì)部分。

也就是說，“賈維斯”上線，“HER”闖入生活的背后，

是什么樣的模型架構(gòu)在支持。

首先，肯定是一個(gè)原生的多模型大模型。

其次，圖像，音頻兩個(gè)模態(tài)對(duì)齊于語(yǔ)言大模型。

從音頻角度來講，沒有語(yǔ)言識(shí)別，沒有語(yǔ)音合成，

因?yàn)橐纛l數(shù)據(jù)已經(jīng)能被當(dāng)作token來直接理解了。

正是在這種前提下，

在短短232毫秒內(nèi)，GPT-4o就能對(duì)音頻輸入做出反應(yīng)。

大家會(huì)說，像人的反應(yīng)一樣快。

視覺信息亦如此。

Voken（Visual Token）這種特殊的Token。

已經(jīng)能處理得很好了。

它甚至可以被隨時(shí)打斷，

模型在一邊生成，一邊感知。

也就是，邊聽邊處理，邊看邊處理。

畢竟，ViT很好用。

ViT可以用一個(gè)已經(jīng)訓(xùn)練好的，

LLM也可以用一個(gè)已經(jīng)訓(xùn)練好的，

只去搭建并訓(xùn)練中間的過渡層就可以了。

這些成熟的東西，在2023年已經(jīng)鋪墊得很充分了。

LLAVA系列都做得很好了。

我相信OpenAI還能有辦法做得更好，

畢竟，那么多聰明的腦袋在里面努力。

同時(shí)，我們還要清楚地認(rèn)識(shí)到。

圖像，音頻兩個(gè)模態(tài)的數(shù)據(jù)量可比文字文本的大多了。

非常消耗算力。

這一點(diǎn)又給算力不足的人，迎頭痛擊。

考慮到OpenAI不缺算力，那多模態(tài)訓(xùn)練數(shù)據(jù)量大的問題，

也不再是一個(gè)問題。

緊接著，

我再來用比較專業(yè)的方式，

把GPT-4o厲害之處總結(jié)一遍：

第一，看模型算法。

GPT-4o作為OpenAI的首個(gè)“端到端多模態(tài)大模型”，

在理解側(cè)和生成側(cè)原生支持語(yǔ)音、視覺、文本等模態(tài)，

將語(yǔ)音交互延時(shí)縮短到300ms左右，

這意味著向自然人機(jī)交互，而是以非常舒服地交互方式，

邁進(jìn)了重要的一步。

此前，生硬呆板地交互與之相比，

是兩個(gè)時(shí)期的產(chǎn)物。

后者，我就叫它“爽感交互”吧。

第二，看推理。

在“爽感交互”的情況下，

GPT-4o同時(shí)達(dá)到了與GPT-4 Turbo相當(dāng)?shù)哪芰?0%的推理成本，

商業(yè)推廣和落地的空間一下就打開了。

GPT-4o的API當(dāng)前僅支持文本和圖像輸入，

但從demo效果推測(cè)，

其在音頻和視頻的流式處理機(jī)制方面應(yīng)存在獨(dú)特之處，

已從當(dāng)前主流的獨(dú)立模態(tài)方式升級(jí)為并行處理模式。

AI Infra基礎(chǔ)設(shè)施團(tuán)隊(duì)，功不可沒。

最后，如果你想一口氣了解多模態(tài)去年的全年進(jìn)展，

我有一篇文章推薦，

很長(zhǎng)，專為“收藏夾吃灰”而生。

如果在朋友圈轉(zhuǎn)發(fā)，

你的朋友大概率會(huì)說，

哇撒，好厲害。

然后，就沒有然后了。

（完）

One More Thing

譚老師我，頭發(fā)掉得很厲害，

實(shí)在熬不了夜了。

今天早上起床后，看了昨晚的活動(dòng)視頻。

第一個(gè)電話打給武漢人工智能研究院易東博士。

第二個(gè)電話到美國(guó)。

我和易東博士聊起GPT-4o里的o是什么？

O是單詞"Omni"的首字母。

中文意思——全能。

聊到這，我倆都笑了，

也說不清是傻笑，還是苦笑。

也是同樣一個(gè)o，

時(shí)間可以追溯時(shí)間2021年7月，

OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation

這篇可以稱為為國(guó)產(chǎn)紫東太初大模型打下多模態(tài)理解基礎(chǔ)的論文，

這里的OPT的O，也是Omni。

這篇齊集武漢人工智能研究院王金橋，

劉靜博士，張家俊博士三位大神的論文。

曾被我稱為，保據(jù)“三模態(tài)”，深挖護(hù)城河。

方向就是這個(gè)方向，

把圖像，音頻兩個(gè)模態(tài)對(duì)齊于文本，

統(tǒng)一在語(yǔ)言空間。

不是想不到，而是資源不到。

華為盤古的消息，

更是不準(zhǔn)發(fā)，所以不能寫。

但我想說的是，

沒有落后很多，

追上去，尚有可能。

另外，紫東太初最近會(huì)有大事公布，

但我沒有權(quán)利提前泄露此事。

總會(huì)知道的，

等新番更新吧。

只能聊到這里了，

要關(guān)電腦了。

下午，騰訊混元大模型有個(gè)內(nèi)部交流會(huì)，

我接到線報(bào)，騰訊混元團(tuán)隊(duì)的蘆清林，

會(huì)在北京市朝陽(yáng)區(qū)天辰東路1號(hào)院的亞洲金融大廈出現(xiàn)。

我得去堵他。

拜了個(gè)拜。

（完）

《我看見了風(fēng)暴：人工智能基建革命》，

作者：譚婧

原標(biāo)題：《GPT-4o“成精了”：推測(cè)技術(shù)原理，附送“美國(guó)灣區(qū)”小道消息》

閱讀原文

轉(zhuǎn)載請(qǐng)注明來自杭州安米通儀器設(shè)備有限公司，本文標(biāo)題：《GPT-4o“成精了”：推測(cè)技術(shù)原理，附送“美國(guó)灣區(qū)”小道消息》

zhangyatai 824篇文章站點(diǎn) 微博

每一天，每一秒，你所做的決定都會(huì)改變你的人生！

發(fā)表評(píng)論取消回復(fù)

評(píng)論列表（暫無評(píng)論，14人圍觀）參與討論

還沒有評(píng)論，來說兩句吧...

? 2025年3月 ?
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

欧美日本亚洲国产_欧美日韩高清福利区_亚洲日精品一区在线观看_亚洲国产精品热久久2022_欧美美女被操网站_中文字幕日韩精品网站_最近中文字幕大全_精品国产福利在线观看91帕_美女黄色视频大全集_国内在线视频一区

admin_qifei管理員

最新文章

網(wǎng)站收藏

GPT-4o“成精了”：推測(cè)技術(shù)原理，附送“美國(guó)灣區(qū)”小道消息

發(fā)表評(píng)論取消回復(fù)

還沒有評(píng)論，來說兩句吧...

最近發(fā)表

友情鏈接

文章目錄

欧美日本亚洲国产_欧美日韩高清福利区_亚洲日精品一区在线观看_亚洲国产精品热久久2022_欧美美女被操网站_中文字幕日韩精品网站_最近中文字幕大全_精品国产福利在线观看91帕_美女黄色视频大全集_国内在线视频一区

admin_qifei管理員

最新文章

網(wǎng)站收藏

GPT-4o“成精了”：推測(cè)技術(shù)原理，附送“美國(guó)灣區(qū)”小道消息

核心電動(dòng)車業(yè)務(wù)面臨不確定性之際 特斯拉高管離職潮又+1

電源小車最新款，電源小車最新款性能與市場(chǎng)前景深度解析

電瓶洗車機(jī)排行榜最新款，電瓶洗車機(jī)選購(gòu)指南：排行榜最新款性能解析與使用注意事項(xiàng)

新加坡女子騙公司570萬新幣！買豪車豪宅一堆奢侈品，結(jié)果悲劇了

府谷直播招聘網(wǎng)最新招聘信息匯總，就業(yè)機(jī)會(huì)不容錯(cuò)過！，府谷直播招聘網(wǎng)，海量職位等你來挑，就業(yè)好機(jī)會(huì)速來把握！

哈薩克斯坦專家：俄烏沖突已經(jīng)演變成為更大范圍的對(duì)抗

新橋燒烤價(jià)格表最新，新橋燒烤最新價(jià)格表概覽：全面了解熱門美食與優(yōu)惠活動(dòng)

機(jī)場(chǎng)建筑設(shè)計(jì)指南最新版，打造現(xiàn)代化航空交通樞紐，現(xiàn)代化航空交通樞紐建設(shè)，機(jī)場(chǎng)建筑設(shè)計(jì)指南最新版解讀

發(fā)表評(píng)論取消回復(fù)

還沒有評(píng)論，來說兩句吧...

最近發(fā)表

友情鏈接

文章目錄

核心電動(dòng)車業(yè)務(wù)面臨不確定性之際特斯拉高管離職潮又+1

電瓶洗車機(jī)排行榜最新款，電瓶洗車機(jī)選購(gòu)指南：排行榜最新款性能解析與使用注意事項(xiàng)

新加坡女子騙公司570萬新幣！買豪車豪宅一堆奢侈品，結(jié)果悲劇了

府谷直播招聘網(wǎng)最新招聘信息匯總，就業(yè)機(jī)會(huì)不容錯(cuò)過！，府谷直播招聘網(wǎng)，海量職位等你來挑，就業(yè)好機(jī)會(huì)速來把握！

新橋燒烤價(jià)格表最新，新橋燒烤最新價(jià)格表概覽：全面了解熱門美食與優(yōu)惠活動(dòng)

機(jī)場(chǎng)建筑設(shè)計(jì)指南最新版，打造現(xiàn)代化航空交通樞紐，現(xiàn)代化航空交通樞紐建設(shè)，機(jī)場(chǎng)建筑設(shè)計(jì)指南最新版解讀

還沒有評(píng)論，來說兩句吧...