欧美日本亚洲国产_欧美日韩高清福利区_亚洲日精品一区在线观看_亚洲国产精品热久久2022_欧美美女被操网站_中文字幕日韩精品网站_最近中文字幕大全_精品国产福利在线观看91帕_美女黄色视频大全集_国内在线视频一区

DeepSeek-V2又雙叒升級(jí)了,最強(qiáng)開(kāi)源模型!(DeepSeek-Chat-V2.1開(kāi)源 & 全面測(cè)試)

DeepSeek-V2又雙叒升級(jí)了,最強(qiáng)開(kāi)源模型!(DeepSeek-Chat-V2.1開(kāi)源 & 全面測(cè)試)

linyixia 2025-03-28 文化 9 次瀏覽 0個(gè)評(píng)論
Aitrainee | 公眾號(hào):AI進(jìn)修生

幾乎每周我們都能看到人工智能領(lǐng)域的重大進(jìn)步

這會(huì)兒開(kāi)源模型又往上走了一步

前面發(fā)生了一些事情,Gpt4o-mini發(fā)布、Windows崩潰,這些我有所關(guān)注,但不做多講

今天我想說(shuō) DeepSeek V2 聊天模型進(jìn)行了又一次的升級(jí),進(jìn)化到了DeepSeek-Chat-V2.1

你如果還是不太了解的話,我們可以補(bǔ)充一些前置消息:DeepSeek V2大約一兩個(gè)月前發(fā)布,在基準(zhǔn)測(cè)試和實(shí)際使用中表現(xiàn)非常出色,主要針對(duì)各種通用用途。

不久后,他們還發(fā)布了DeepSeek Coder V2模型,專注于編程,同樣表現(xiàn)不俗。現(xiàn)在,他們又發(fā)布了DeepSeek V2聊天模型的更新版本,比之前更出色。

模型更新

就像之前的版本一樣,這個(gè)更新版本也是一個(gè)由多個(gè)專家組成的模型,擁有 236B 參數(shù),具有 128K 上下文限制,其中 21B 是活躍參數(shù)。雖然還有一個(gè)輕量版,只有 16B 參數(shù),但這次更新不涉及它。

這次更新的版本在通用排行榜

▲ 優(yōu)于所有其他開(kāi)源模型

和編程競(jìng)技場(chǎng)排行榜上表現(xiàn)依然非常優(yōu)秀。

性能提升

如果我們看一下模型的主要改進(jìn),可以看到在人類評(píng)估基準(zhǔn)測(cè)試中提高了3.7分,在數(shù)學(xué)基準(zhǔn)測(cè)試中提高了17.1分,在BBH基準(zhǔn)測(cè)試中提高了3.7分,在IAL中提高了13.8分,在競(jìng)技場(chǎng)硬核基準(zhǔn)測(cè)試中提高了26.7分,這是最大的提升。

他們還提到,系統(tǒng)區(qū)域的指令跟隨能力得到了顯著優(yōu)化,提升了用戶在沉浸式翻譯、RAG等任務(wù)中的體驗(yàn)。

總的來(lái)說(shuō),模型在幾乎所有領(lǐng)域的性能都有所提升,這顯然很酷。

之前版本的基準(zhǔn)測(cè)試結(jié)果已經(jīng)很不錯(cuò)了,現(xiàn)在更是錦上添花。

這個(gè)模型可以在Hugging Face上找到,Ollama目前還沒(méi)有更新這個(gè)模型的版本。

DeepSeek的聊天平臺(tái)也更新了使用這個(gè)新模型。所以,讓我們來(lái)測(cè)試一下看看效果如何。

測(cè)試問(wèn)題及結(jié)果:

我將測(cè)試以下九個(gè)問(wèn)題:

以“Lia”結(jié)尾的國(guó)家的首都是哪座城市?

模型正確回答,標(biāo)記為通過(guò)。

一個(gè)烘焙師做了240塊餅干,他每盒裝12塊,需要多少盒才能裝完所有餅干?

模型正確回答,標(biāo)記為通過(guò)。

露西的糖果是邁克的兩倍,如果邁克有7塊糖果,露西有多少塊?

模型正確回答,標(biāo)記為通過(guò)。

如果一個(gè)正六邊形的短對(duì)角線為64,長(zhǎng)對(duì)角線是多少?

模型未正確回答,標(biāo)記為未通過(guò)。

編碼問(wèn)題及結(jié)果:

創(chuàng)建一個(gè)包含按鈕的HTML頁(yè)面,點(diǎn)擊按鈕時(shí)爆炸出彩紙。可以使用CSS和JS。

生成代碼正確,標(biāo)記為通過(guò)。

創(chuàng)建一個(gè)Python程序,打印用戶輸入的接下來(lái)的X個(gè)閏年。

生成代碼正確,標(biāo)記為通過(guò)。生成一個(gè)方形臉的SVG代碼。

生成代碼正確,標(biāo)記為通過(guò)。為一家AI公司創(chuàng)建一個(gè)著陸頁(yè)面,包含四個(gè)部分:頁(yè)眉、橫幅、特色和聯(lián)系我們,頁(yè)面要看起來(lái)時(shí)尚現(xiàn)代。

生成代碼正確,標(biāo)記為通過(guò)。用Python編寫一個(gè)在終端上運(yùn)行的貪吃蛇游戲。

生成代碼正確,標(biāo)記為通過(guò)。

最終結(jié)果顯示,除了一個(gè)問(wèn)題外,模型幾乎通過(guò)了所有測(cè)試。

這款模型非常出色,堪比所有頂級(jí)模型。而且,它是開(kāi)源的,使用他們的聊天平臺(tái)完全免費(fèi),無(wú)硬性限制。

此外,這個(gè)模型的API比最近推出的GPT 4o Mini更便宜,輸入僅需14美分,輸出28美分,而質(zhì)量極佳。

互聯(lián)網(wǎng)用戶一直在贊美GPT 4o Mini的成本,但實(shí)際上更好的DeepSeek模型更便宜。

總體來(lái)說(shuō),DeepSeek V2聊天模型非常優(yōu)秀,現(xiàn)在更是如此。

DeepSeek-V2又雙叒升級(jí)了,最強(qiáng)開(kāi)源模型?。―eepSeek-Chat-V2.1開(kāi)源 & 全面測(cè)試)

??希望這篇文章對(duì)你有幫助,感謝閱讀!

視頻教程

https://www.youtube.com/watch?v=8wJs1vj8e_4

參考鏈接: [1] huggingface:https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat-0628

轉(zhuǎn)載請(qǐng)注明來(lái)自杭州安米通儀器設(shè)備有限公司,本文標(biāo)題:《DeepSeek-V2又雙叒升級(jí)了,最強(qiáng)開(kāi)源模型?。―eepSeek-Chat-V2.1開(kāi)源 & 全面測(cè)試)》

百度分享代碼,如果開(kāi)啟HTTPS請(qǐng)參考李洋個(gè)人博客
每一天,每一秒,你所做的決定都會(huì)改變你的人生!

發(fā)表評(píng)論

快捷回復(fù):

評(píng)論列表 (暫無(wú)評(píng)論,9人圍觀)參與討論

還沒(méi)有評(píng)論,來(lái)說(shuō)兩句吧...

Top