Aitrainee | 公眾號(hào):AI進(jìn)修生
幾乎每周我們都能看到人工智能領(lǐng)域的重大進(jìn)步
這會(huì)兒開(kāi)源模型又往上走了一步
前面發(fā)生了一些事情,Gpt4o-mini發(fā)布、Windows崩潰,這些我有所關(guān)注,但不做多講
今天我想說(shuō) DeepSeek V2 聊天模型進(jìn)行了又一次的升級(jí),進(jìn)化到了DeepSeek-Chat-V2.1
你如果還是不太了解的話,我們可以補(bǔ)充一些前置消息:DeepSeek V2大約一兩個(gè)月前發(fā)布,在基準(zhǔn)測(cè)試和實(shí)際使用中表現(xiàn)非常出色,主要針對(duì)各種通用用途。
不久后,他們還發(fā)布了DeepSeek Coder V2模型,專注于編程,同樣表現(xiàn)不俗。現(xiàn)在,他們又發(fā)布了DeepSeek V2聊天模型的更新版本,比之前更出色。
模型更新
就像之前的版本一樣,這個(gè)更新版本也是一個(gè)由多個(gè)專家組成的模型,擁有 236B 參數(shù),具有 128K 上下文限制,其中 21B 是活躍參數(shù)。雖然還有一個(gè)輕量版,只有 16B 參數(shù),但這次更新不涉及它。
這次更新的版本在通用排行榜
▲ 優(yōu)于所有其他開(kāi)源模型
和編程競(jìng)技場(chǎng)排行榜上表現(xiàn)依然非常優(yōu)秀。
性能提升
如果我們看一下模型的主要改進(jìn),可以看到在人類評(píng)估基準(zhǔn)測(cè)試中提高了3.7分,在數(shù)學(xué)基準(zhǔn)測(cè)試中提高了17.1分,在BBH基準(zhǔn)測(cè)試中提高了3.7分,在IAL中提高了13.8分,在競(jìng)技場(chǎng)硬核基準(zhǔn)測(cè)試中提高了26.7分,這是最大的提升。
他們還提到,系統(tǒng)區(qū)域的指令跟隨能力得到了顯著優(yōu)化,提升了用戶在沉浸式翻譯、RAG等任務(wù)中的體驗(yàn)。
總的來(lái)說(shuō),模型在幾乎所有領(lǐng)域的性能都有所提升,這顯然很酷。
之前版本的基準(zhǔn)測(cè)試結(jié)果已經(jīng)很不錯(cuò)了,現(xiàn)在更是錦上添花。
這個(gè)模型可以在Hugging Face上找到,Ollama目前還沒(méi)有更新這個(gè)模型的版本。
DeepSeek的聊天平臺(tái)也更新了使用這個(gè)新模型。所以,讓我們來(lái)測(cè)試一下看看效果如何。
測(cè)試問(wèn)題及結(jié)果:
我將測(cè)試以下九個(gè)問(wèn)題:
以“Lia”結(jié)尾的國(guó)家的首都是哪座城市?
模型正確回答,標(biāo)記為通過(guò)。
一個(gè)烘焙師做了240塊餅干,他每盒裝12塊,需要多少盒才能裝完所有餅干?
模型正確回答,標(biāo)記為通過(guò)。
露西的糖果是邁克的兩倍,如果邁克有7塊糖果,露西有多少塊?
模型正確回答,標(biāo)記為通過(guò)。
如果一個(gè)正六邊形的短對(duì)角線為64,長(zhǎng)對(duì)角線是多少?
模型未正確回答,標(biāo)記為未通過(guò)。
編碼問(wèn)題及結(jié)果:
創(chuàng)建一個(gè)包含按鈕的HTML頁(yè)面,點(diǎn)擊按鈕時(shí)爆炸出彩紙。可以使用CSS和JS。
生成代碼正確,標(biāo)記為通過(guò)。
創(chuàng)建一個(gè)Python程序,打印用戶輸入的接下來(lái)的X個(gè)閏年。
生成代碼正確,標(biāo)記為通過(guò)。生成一個(gè)方形臉的SVG代碼。
生成代碼正確,標(biāo)記為通過(guò)。為一家AI公司創(chuàng)建一個(gè)著陸頁(yè)面,包含四個(gè)部分:頁(yè)眉、橫幅、特色和聯(lián)系我們,頁(yè)面要看起來(lái)時(shí)尚現(xiàn)代。
生成代碼正確,標(biāo)記為通過(guò)。用Python編寫一個(gè)在終端上運(yùn)行的貪吃蛇游戲。
生成代碼正確,標(biāo)記為通過(guò)。
最終結(jié)果顯示,除了一個(gè)問(wèn)題外,模型幾乎通過(guò)了所有測(cè)試。
這款模型非常出色,堪比所有頂級(jí)模型。而且,它是開(kāi)源的,使用他們的聊天平臺(tái)完全免費(fèi),無(wú)硬性限制。
此外,這個(gè)模型的API比最近推出的GPT 4o Mini更便宜,輸入僅需14美分,輸出28美分,而質(zhì)量極佳。
互聯(lián)網(wǎng)用戶一直在贊美GPT 4o Mini的成本,但實(shí)際上更好的DeepSeek模型更便宜。
總體來(lái)說(shuō),DeepSeek V2聊天模型非常優(yōu)秀,現(xiàn)在更是如此。
??希望這篇文章對(duì)你有幫助,感謝閱讀!
視頻教程
https://www.youtube.com/watch?v=8wJs1vj8e_4
參考鏈接: [1] huggingface:https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat-0628
還沒(méi)有評(píng)論,來(lái)說(shuō)兩句吧...