全球最新排名：DeepSeek-V3奪開源模型第一！是“新瓶裝舊酒”還是實(shí)質(zhì)性突破？業(yè)內(nèi)人士詳解

nanyao 2025-03-28 歷史 24 次瀏覽 0個(gè)評(píng)論

每經(jīng)記者鄭雨航每經(jīng)實(shí)習(xí)記者岳楚鵬每經(jīng)編輯高涵

2024年12月26日，深度求索（DeepSeek）發(fā)布了其最新人工智能（AI）大模型DeepSeek-V3，并同步開源，刷屏中外AI圈。DeepSeek在兩年內(nèi)就成功開發(fā)出一款性能比肩國(guó)際頂尖的AI模型，成本僅為557萬(wàn)美元，與OpenAI 7800萬(wàn)美元的GPT-4訓(xùn)練成本形成鮮明對(duì)比。

聊天機(jī)器人競(jìng)技場(chǎng)（Chatbot Arena）最新數(shù)據(jù)顯示，DeepSeek-V3排名全模型第七，開源模型第一。競(jìng)技場(chǎng)官方表示，DeepSeek-V3是全球前十中性價(jià)比最高的模型。在風(fēng)格控制下表現(xiàn)穩(wěn)健，在復(fù)雜問(wèn)題和代碼領(lǐng)域表現(xiàn)均位列前三。

在長(zhǎng)達(dá)55頁(yè)的技術(shù)報(bào)告背后，DeepSeek將它的技術(shù)路線完整地展示給公眾。有人稱贊它是一次真正的技術(shù)突破，但也有人質(zhì)疑它只是現(xiàn)有優(yōu)化技術(shù)的集成而已，本質(zhì)上是新瓶裝舊酒。

對(duì)此，有業(yè)內(nèi)人士告訴《每日經(jīng)濟(jì)新聞》記者，DeepSeek-V3是首個(gè)創(chuàng)新融合使用了FP8、MLA、MoE三項(xiàng)技術(shù)的大模型，可以看作是實(shí)質(zhì)性的突破。

最新的聊天機(jī)器人競(jìng)技場(chǎng)（Chatbot Arena）數(shù)據(jù)顯示，DeepSeek-V3排名第七，成為前十名中唯一的開源國(guó)產(chǎn)模型。

圖片來(lái)源：聊天機(jī)器人競(jìng)技場(chǎng)

DeepSeek-V3模型被評(píng)價(jià)為國(guó)產(chǎn)第一，并且也是全球前十中性價(jià)比最高的模型。DeepSeek-V3在風(fēng)格控制下表現(xiàn)穩(wěn)健，在復(fù)雜問(wèn)題和代碼領(lǐng)域沖進(jìn)了前三名。

聊天機(jī)器人競(jìng)技場(chǎng)是目前最知名的大模型評(píng)比榜單，用戶在平臺(tái)上同時(shí)與兩個(gè)匿名模型進(jìn)行對(duì)話，提出相同問(wèn)題，比較它們的回答。根據(jù)模型的回答質(zhì)量，用戶選擇自己偏好的答案，或選擇平局或都不滿意。根據(jù)用戶投票結(jié)果，平臺(tái)使用Elo評(píng)分系統(tǒng)更新模型的分?jǐn)?shù)。相比較于其他基準(zhǔn)測(cè)試，這一評(píng)分標(biāo)準(zhǔn)更能反映出真人用戶對(duì)于大模型的偏好。

AI智能體與大語(yǔ)言模型集成平臺(tái)Composio也從推理、數(shù)學(xué)、編程和創(chuàng)意寫作四個(gè)維度將DeepSeek-V3和目前最流行的兩個(gè)大模型Claude 3.5 Sonnet和GPT-4o進(jìn)行了比較。

在推理方面，DeepSeek-V3與Claude 3.5 Sonnet、GPT-4o平分秋色，在個(gè)別特定問(wèn)題上還要表現(xiàn)得更好一點(diǎn)。

在數(shù)學(xué)方面，DeepSeek-V3比Claude 3.5 Sonnet和GPT-4o要好得多。測(cè)試者使用了Gilbert Strang的線性代數(shù)（MIT的線性代數(shù)入門教材）中的一道題作為測(cè)試問(wèn)題。GPT-4o和Claude 3.5 Sonnet都只能找到一個(gè)可能的頂點(diǎn)，而DeepSeek-V3能找出三個(gè)頂點(diǎn)。

在編程方面，DeepSeek-V3非常接近GPT-4o的編碼能力，但Claude 3.5 Sonnet是表現(xiàn)最好的模型。不過(guò)，DeepSeek-V3的定價(jià)卻極具吸引力?？紤]到性價(jià)比，如果只是一般使用的話，Composio認(rèn)為DeepSeek-V3會(huì)是更好的選擇。

在創(chuàng)意寫作方面，Claude 3.5 Sonnet更佳，GPT-4o與DeepSeek-V3相差不大。

但是，DeepSeek現(xiàn)在API的輸入價(jià)格僅為每百萬(wàn)Token0.1元人民幣，而Claude3.5 Sonnet API輸入價(jià)格為每百萬(wàn)Token 3美元。Composio站在使用者的角度判斷，如果用戶想要在大模型之上構(gòu)建應(yīng)用程序，那么Deepseek-V3是明智之選。DeepSeek-V3的性價(jià)比讓它成為構(gòu)建面向客戶的AI應(yīng)用程序的理想選擇。

圖片來(lái)源：X

DeepSeek刷屏的另一大焦點(diǎn)便是：它的價(jià)格為何那么便宜？

DeepSeek在它長(zhǎng)達(dá)55頁(yè)的技術(shù)報(bào)告里給出了答案:DeepSeek-V3利用混合專家 (MoE)架構(gòu)來(lái)優(yōu)化性能，在每次處理過(guò)程中僅激活6710億個(gè)參數(shù)中的370億個(gè)。同時(shí)還融合使用了多頭潛在注意力(MLA)、FP8混合精度和多token預(yù)測(cè)等技術(shù)進(jìn)一步提高了其效率和有效性。

有人質(zhì)疑稱，這些技術(shù)在很早之前就已經(jīng)提出過(guò)，DeepSeek只是將這些優(yōu)化技術(shù)集成在一起而已。

對(duì)此，資深業(yè)內(nèi)人士、技術(shù)交流平臺(tái)北京城市開發(fā)者社區(qū)主理人貓頭虎告訴《每日經(jīng)濟(jì)新聞》記者，DeepSeek-V3有實(shí)質(zhì)突破。他認(rèn)為，作為首個(gè)綜合實(shí)力匹敵Meta的Llama3.1-405B的國(guó)產(chǎn)開源大模型，DeepSeek-V3創(chuàng)新性地同時(shí)使用了FP8、MLA和MoE三種技術(shù)手段。

據(jù)悉，F(xiàn)P8是一種新的數(shù)值表示方式，用于深度學(xué)習(xí)的計(jì)算加速。相比傳統(tǒng)的FP32和FP16，F(xiàn)P8進(jìn)一步壓縮了數(shù)據(jù)位數(shù)，極大地提升了硬件計(jì)算效率。雖然FP8是由英偉達(dá)提出的技術(shù)，但DeepSeek-V3是全球首家在超大規(guī)模模型上驗(yàn)證了其有效性的模型。

貓頭虎進(jìn)一步向每經(jīng)記者表示，這一技術(shù)（FP8）至少將顯存消耗降低了30%。

Midjourney的AI研究員Finbarr也表示，Deepseek的FP8設(shè)置看上去很棒。

此外，相較于其他模型使用的MoE模型，DeepSeek-V3使用的MoE模型更為精簡(jiǎn)有效。該架構(gòu)使用更具細(xì)粒度的專家并將一些專家隔離為共享專家，使得每次只需要占用很小比例的子集專家參數(shù)就可以完成計(jì)算。這一架構(gòu)的更新是2024年1月DeepSeek團(tuán)隊(duì)提出的。

圖片來(lái)源：arXiv

AI研究人員馬克·貝克在文章中認(rèn)為DeepSeek的MoE是一個(gè)突破性的MoE語(yǔ)言模型架構(gòu)，它通過(guò)創(chuàng)新策略，包括細(xì)粒度專家細(xì)分和共享專家隔離，實(shí)現(xiàn)了比現(xiàn)有MoE架構(gòu)更高的專家專業(yè)化和性能。

但是最令人驚訝的是MLA機(jī)制，這一機(jī)制也完全由DeepSeek團(tuán)隊(duì)自主提出，并最早作為核心機(jī)制引入了DeepSeek-V2模型上，極大地降低了緩存使用。不過(guò)，DeepSeek-V2模型當(dāng)時(shí)并沒(méi)有激起什么討論的熱度，只有很少一部分技術(shù)人員注意到了這一成果。

圖片來(lái)源：arXiv

當(dāng)時(shí)，開源平臺(tái)huggingface的技術(shù)主管Pjillipp Schmid還在社交平臺(tái)上為DeepSeek鳴不平：“為什么沒(méi)有更多的人討論MLA（多頭潛在注意力）機(jī)制？ MLA被引入DeepSeek-V2中，并幫助將KV-cache的內(nèi)存減少了93.3%。”

編者注：多頭潛在注意力（MLA）是DeepSeek-V2的核心創(chuàng)新，它不僅僅停留在低秩投影的概念上，而是通過(guò)更精細(xì)的變換設(shè)計(jì)，實(shí)現(xiàn)了在保持推理時(shí)KV Cache與GQA相當(dāng)?shù)耐瑫r(shí)，增強(qiáng)模型的表達(dá)能力。MLA的關(guān)鍵在于其推理階段的恒等變換技巧，允許模型在不增加KV Cache大小的情況下，利用不同的投影矩陣增強(qiáng)每個(gè)頭的能力。

圖片來(lái)源：X

貓頭虎向每經(jīng)記者表示，FP8、MLA和MoE的融合，是AI技術(shù)向更高效率、更低成本發(fā)展的典型案例，尤其在DeepSeek-V3的推動(dòng)下，這些技術(shù)展現(xiàn)出了寬闊的應(yīng)用前景。

轉(zhuǎn)載請(qǐng)注明來(lái)自杭州安米通儀器設(shè)備有限公司，本文標(biāo)題：《全球最新排名：DeepSeek-V3奪開源模型第一！是“新瓶裝舊酒”還是實(shí)質(zhì)性突破？業(yè)內(nèi)人士詳解》

nanyao 1015篇文章站點(diǎn) 微博

每一天，每一秒，你所做的決定都會(huì)改變你的人生！

“新澳門免費(fèi)精準(zhǔn)大全”·全程記錄_杭州安米通儀器設(shè)備有限公司
“72396王中王網(wǎng)站”·實(shí)時(shí)報(bào)道_杭州安米通儀器設(shè)備有限公司
“新澳天天開獎(jiǎng)資料大全最新版”·持續(xù)跟蹤_杭州安米通儀器設(shè)備有限公司
“新澳門王中王五肖中特”·立即播報(bào)_杭州安米通儀器設(shè)備有限公司
“新澳門王中王100期期中”·精準(zhǔn)資料_杭州安米通儀器設(shè)備有限公司
“白小姐一肖一碼中100”·相繼追蹤_杭州安米通儀器設(shè)備有限公司
“新奧精準(zhǔn)免費(fèi)提供港澳彩”·動(dòng)態(tài)報(bào)道_杭州安米通儀器設(shè)備有限公司
“7777788888精準(zhǔn)一肖”·快速解析_杭州安米通儀器設(shè)備有限公司

發(fā)表評(píng)論取消回復(fù)

評(píng)論列表（暫無(wú)評(píng)論，24人圍觀）參與討論

欧美日本亚洲国产_欧美日韩高清福利区_亚洲日精品一区在线观看_亚洲国产精品热久久2022_欧美美女被操网站_中文字幕日韩精品网站_最近中文字幕大全_精品国产福利在线观看91帕_美女黄色视频大全集_国内在线视频一区

admin_qifei管理員

最新文章

網(wǎng)站收藏

全球最新排名：DeepSeek-V3奪開源模型第一！是“新瓶裝舊酒”還是實(shí)質(zhì)性突破？業(yè)內(nèi)人士詳解

發(fā)表評(píng)論取消回復(fù)

還沒(méi)有評(píng)論，來(lái)說(shuō)兩句吧...

最近發(fā)表

友情鏈接

文章目錄

? 2025年3月 ?
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

欧美日本亚洲国产_欧美日韩高清福利区_亚洲日精品一区在线观看_亚洲国产精品热久久2022_欧美美女被操网站_中文字幕日韩精品网站_最近中文字幕大全_精品国产福利在线观看91帕_美女黄色视频大全集_国内在线视频一区

admin_qifei管理員

最新文章

網(wǎng)站收藏

全球最新排名：DeepSeek-V3奪開源模型第一！是“新瓶裝舊酒”還是實(shí)質(zhì)性突破？業(yè)內(nèi)人士詳解

溫嶺抓捕最新信息，全面解讀事件進(jìn)展與背景，溫嶺抓捕事件最新進(jìn)展與背景解讀

東區(qū)最新租房信息，東區(qū)租房指南：最新房源信息與選址策略

劉備傳最新版下載，探尋三國(guó)英雄傳奇的全新旅程，全新啟程，劉備傳最新版三國(guó)英雄傳奇下載

大唐 斷網(wǎng)小說(shuō)推薦最新，大唐斷網(wǎng)冒險(xiǎn)之旅：穿越千年的神秘探險(xiǎn)之旅

汾陽(yáng)車庫(kù)出售最新信息概覽，汾陽(yáng)車庫(kù)最新出售信息總覽

新韻食堂招聘官網(wǎng)最新，新韻食堂招聘官網(wǎng)最新動(dòng)態(tài)：每日更新原創(chuàng)文章，全面了解招聘信息與求職指南

后宮酒店漢化最新版下載，《后宮酒店漢化最新版》下載攻略及游戲指南

五一吃瓜網(wǎng)最新，五一假期瓜界風(fēng)云錄

“新澳門免費(fèi)精準(zhǔn)大全”·全程記錄_杭州安米通儀器設(shè)備有限公司

“72396王中王網(wǎng)站”·實(shí)時(shí)報(bào)道_杭州安米通儀器設(shè)備有限公司

“新澳天天開獎(jiǎng)資料大全最新版”·持續(xù)跟蹤_杭州安米通儀器設(shè)備有限公司

“新澳門王中王五肖中特”·立即播報(bào)_杭州安米通儀器設(shè)備有限公司

“新澳門王中王100期期中”·精準(zhǔn)資料_杭州安米通儀器設(shè)備有限公司

“白小姐一肖一碼中100”·相繼追蹤_杭州安米通儀器設(shè)備有限公司

“新奧精準(zhǔn)免費(fèi)提供港澳彩”·動(dòng)態(tài)報(bào)道_杭州安米通儀器設(shè)備有限公司

“7777788888精準(zhǔn)一肖”·快速解析_杭州安米通儀器設(shè)備有限公司

發(fā)表評(píng)論取消回復(fù)

還沒(méi)有評(píng)論，來(lái)說(shuō)兩句吧...

最近發(fā)表

友情鏈接

文章目錄

全球最新排名：DeepSeek-V3奪開源模型第一！是“新瓶裝舊酒”還是實(shí)質(zhì)性突破？業(yè)內(nèi)人士詳解

溫嶺抓捕最新信息，全面解讀事件進(jìn)展與背景，溫嶺抓捕事件最新進(jìn)展與背景解讀

劉備傳最新版下載，探尋三國(guó)英雄傳奇的全新旅程，全新啟程，劉備傳最新版三國(guó)英雄傳奇下載

大唐斷網(wǎng)小說(shuō)推薦最新，大唐斷網(wǎng)冒險(xiǎn)之旅：穿越千年的神秘探險(xiǎn)之旅

新韻食堂招聘官網(wǎng)最新，新韻食堂招聘官網(wǎng)最新動(dòng)態(tài)：每日更新原創(chuàng)文章，全面了解招聘信息與求職指南

后宮酒店漢化最新版下載，《后宮酒店漢化最新版》下載攻略及游戲指南