DeepSeek 中文名「深度求索」,是一家專注實現(xiàn)通用人工智能(以大模型為代表)的科技公司。它由量化資管巨頭「幻方量化」創(chuàng)立于 2023 年 7 月。
DeepSeek 也指由 DeepSeek 公司開發(fā)的、類似于 ChatGPT 的智能助手。目前,該智能助手在網(wǎng)頁端和移動端均已上線,并且以其驚人的速度和實力,在。這款被譽為“國產(chǎn)AI之光”的應用,不僅在美區(qū)App Store免費榜上力壓?ChatGPT 登頂,也在國內(nèi)App Store免費榜占據(jù)榜首,展現(xiàn)出強大的市場號召力。
此外,外界也將該公司開發(fā)一系列大模型產(chǎn)品籠統(tǒng)稱為 “DeepSeek”。
DeepSeek 已經(jīng)發(fā)布 13 個大模型,并且都已開源。全球開發(fā)者都能使用 DeepSeek 的技術開發(fā)自己的模型、應用、產(chǎn)品。
各模型基本情況如下表所示:
最近引起全世界廣泛關注的模型,主要是自研通用大模型 DeepSeek-V3、推理模型 。
DeepSeek-V3 是一個通用模型,日常常見的問題,都可以嘗試使用 V3。
DeepSeek-R1 是一個推理模型,擅長處理復雜、需要多步思考的問題,適合做深度研究、解決代碼問題、數(shù)學問題。
(*DeepSeek 的官方 GitHub 主頁:https://github.com/deepseek-ai)
目前,DeepSeek 已經(jīng)上線官方應用,包括 Web 端和移動端。
普通用戶通過注冊就能使用 DeepSeek 的產(chǎn)品,目前 Web 和 APP 均免費。
Web 端直接通過訪問網(wǎng)址()對話。在對話框的左下角位置,可以選擇是否開啟 ” 深度思考 ” 模式。如果勾選,會使用 DeepSeek-R1 模型;如不勾選,則默認使用 DeepSeek-V3 。
App 直接在應用商店中搜索 “DeepSeek” 即可,需要注意甄選官方開發(fā)的版本。
在 APP 端,用戶可以選擇同時使用聯(lián)網(wǎng)和推理功能。
不過最近 DeepSeek 由于受到網(wǎng)絡攻擊(或其他因素)時常罷工,需要不斷重試才能得到模型的返回結果。
開發(fā)者也能通過多種渠道調(diào)用 DeepSeek 的 API:
DeepSeek 開發(fā)者平臺:
訪問 DeepSeek 控制臺,注冊登錄并購買獲取相應的密鑰。
英偉達 NIM 微服務:
,支持 API 調(diào)用 DeepSeek-R1,需要使用郵箱注冊賬號。
微軟 Azure:
,微軟 Azure 可以通過聊天操場,部署 DeepSeek-R1,創(chuàng)建一個聊天機器人。
亞馬遜 AWS:
,DeepSeek-R1 現(xiàn)已在 Amazon Bedrock Marketplace 和 Amazon SageMaker JumpStart 中推出,還可以在 Amazon Bedrock Custom Model Import 和 Amazon EC2 實例來使用 DeepSeek-R1-Distill 模型。
硅基流動 SiliconCloud :
,上線了基于華為云昇騰云服務的 DeepSeek-V3、DeepSeek-R1,開發(fā)者可以直接調(diào)用 SiliconCloud API,價格與 DeepSeek 官方優(yōu)惠期價格保持一致。
此外,Cerebras、Groq 也可以調(diào)用 DeepSeek-R1 的 API。
DeepSeek 大火后,各路大神紛紛開發(fā)了各種用法:
首先是高情商陪聊:
(* 圖源網(wǎng)絡)
有非常多的網(wǎng)友把它當算命大師,算起了紫微星。
還有人把 DeepSeek 當理財顧問。它會直接幫你綜合評估,高風險、高回報率方案(DeepSeek 不構成任何投資建議)。
也有網(wǎng)友綜合利用 DeepSeek 的文檔總結、文字生成和輔助寫代碼的功能生成各類社交文案和卡片。
(* 來自禾刀愛 AI 的案例)
更有網(wǎng)友用 DeepSeek 寫起了 PS 的修圖腳本實現(xiàn)了一鍵修圖。
(* 網(wǎng)友用 DeepSeek 寫的 ps 腳本)
(* 運行腳本后的效果)
這兩款模型,有以下幾個特點:
1. 性能優(yōu)秀
這兩款模型的性能接近甚至在某些場景超越了 ” 公認 ” 的全球標桿公司 OpenAI 的最好產(chǎn)品(DeepSeek-V3 對標 GPT-4o,DeepSeek-R1 對標 o1)。
2. 結合應用
兩款模型發(fā)布后,均上線 DeepSeek 的 Web/APP,讓更多人能切身體驗模型效果。
3. 訓練成本低,產(chǎn)品性價比高
V3 僅使用了 2048 個 H800 GPU、花費 3.7 天進行訓練,使用 GPU 的數(shù)量和訓練時長顛覆傳統(tǒng)認知。
R1 和 V3 都可以在 DeepSeek 官網(wǎng)上免費使用;API 的定價中,R1 輸入部分的價格是 o1 的 1.82%,輸出部分是 o1 的 3.65%;V3 輸入部分的價格是 GPT-4o 的 1.12%,輸出部分是 GPT-4o 的 2.8%。
4. 技術創(chuàng)新
DeepSeek-R1 的訓練模式顛覆了常規(guī)認知。DeepSeek-R1 是首個驗證了僅通過 RL(強化學習)無需 SFT (監(jiān)督微調(diào)) 就能得到大幅推理能力增強和涌現(xiàn)的模型。這種訓練方式大幅降低了數(shù)據(jù)標注成本,簡化了訓練流程,整體訓練成本也得到了降低。
5. 開源
目前沒有其他在性能上對標 GPT-4o 和 o1 的開源模型。OpenAI 旗下主打的核心模型都沒有開源,用戶要使用必須通過 APP 或 API 調(diào)用。
(* 官方的測評數(shù)據(jù),V3 的綜合性能接近 GPT-4o,在許多具體的評測數(shù)據(jù)集上的分數(shù)甚至超過了 4o。)
(*DeepSeek-R1 對標 OpenAI 的 o1。根據(jù)官方評測結果,R1 的性能確實與 o1 接近,一些評測集上的成績還要略微高于 o1)
(*DeepSeek-R1 與 OpenAI o1 的 API 調(diào)用價格對比)
1. 中國 AI 公司做出真正的創(chuàng)新,美國科技大廠擔心失去領先地位。
在此之前,模型層面的技術革新雖然也并非罕見,但都是美國模型廠商率先推出、其他廠商跟進驗證的節(jié)奏。這一次 DeepSeek 走到了前面。
首先,DeepSeek 在模型訓練和架構上都有創(chuàng)新。
在 DeepSeek-R1 之前,模型較為普遍訓練路線是 SFT 結合 RL(監(jiān)督微調(diào)結合強化學習),而 DeepSeek 在本次發(fā)布中首次在實驗里驗證了僅通過 RL 也能帶來能力提升。
同時,V3 模型的一個關鍵架構創(chuàng)新是多頭潛在注意力機制(Multi-Head Latent Attention),這能夠顯著降低推理階段的成本、提高效率。
這些是美國 AI 公司沒有做到的事情。
長期以來,AI 發(fā)展依賴于計算能力的積累,可以說是超大規(guī)模者之間的競賽。
對比美國的競爭者,DeepSeek 的創(chuàng)新實現(xiàn)了訓練成本和使用價格上數(shù)量級的減少,美國公司領先市場的重要優(yōu)勢被削弱了。
2. 開源:生態(tài)若能星火燎原,將搶占美國公司市場
DeepSeek 的 R1 不僅通過技術報告公開了訓練過程,還開源了模型的權重。
DeepSeek 的推理模型擁有高性能和低價格,使得開發(fā)者能將其用于越來越多的場景。
最近,微軟、英偉達、AWS 都紛紛接入 DeepSeek-R1。
3. 大模型相關的美國科技股受到巨大沖擊,” 威脅 ” 苗頭初現(xiàn)
英偉達股價大跌,似乎暗示了 DeepSeek 的真實威脅。
因為 DeepSeek 的路線一定程度上說明,無需最強算力也能訓練出高性能大模型,而且 DeepSeek 把高性能模型開源的路線可能讓更多公司放棄訓練模型,沖擊了英偉達核心算力產(chǎn)品(GPU)的需求,影響股價。
并且,市場擔憂 DeepSeek 的成功沖擊 OpenAI 等美國重點科技公司的市場前景,尤其是閉源模型方向。
(*DeepSeek 陸續(xù)發(fā)布的模型對比業(yè)內(nèi)領先模型的性能)
這部分是外界對 DeepSeek 未來動向做出的猜測。
基于目前的成果,外界認為未來的創(chuàng)新點還是會圍繞著成本、性能這兩大核心要素。
多模態(tài)能力補齊。除夕凌晨,DeepSeek 新發(fā)布的 DeepSeek-Janus-Pro 模型是一個多模態(tài)模型,同時擁有視覺理解和視覺生成的能力。
但 Janus 系列模型都是小參數(shù)量模型,如何通過 Janus 創(chuàng)新的模型框架訓練出一個大參數(shù)量的多模態(tài)模型,可能是未來的重點之一。
DeepSeek 在 2025 年 1 月終于推出面向 C 端用戶的 APP 產(chǎn)品,可能未來會探索 / 合作更多應用。
1. 國內(nèi) AI 公司面臨進一步限制。
DeepSeek 的低成本訓練成果,可能會讓美國進一步收縮可供出口的芯片型號。未來,國內(nèi)模型廠商可用的 GPU 型號越來越少,代際越來越舊。
由于隱私、數(shù)據(jù)合規(guī)等質(zhì)疑,一些國家和地區(qū)已經(jīng)要求 DeepSeek 停止服務。
X (Twitter)上,一些 AI 科普類博主從之前的無腦捧吹 DeepSeek 的帖子,已經(jīng)轉(zhuǎn)變?yōu)榻逃脩?” 如何本地化部署一個 DeepSeek R1 來保護自己的數(shù)據(jù) ” 這樣的帖子。
2. 全球 AI 生態(tài)的競爭可能會被重塑。
DeepSeek 得到市場認可,一定程度上說明,算法效率、經(jīng)濟高效將成為未來競爭中的核心要素。
DeepSeek 正推動 AI 行業(yè)從 ” 算力軍備競賽 ” 轉(zhuǎn)向 ” 算法效率戰(zhàn)爭 “,AI 技術進一步普惠化。
那些以往以 ” 算力為重 ” 的公司將要重新審視自己的戰(zhàn)略。
3.?硅谷巨頭們急迫重新領先。
技術上進行革新、重新奪取領先地位的緊迫感,籠罩著美國的科技巨頭們。
據(jù)稱,目前 Google、Apple、Meta 等公司,已經(jīng)紛紛開始深度研究 DeepSeek。各家財報的電話會上,DeepSeek 也是一個繞不開的問題。
盡快推出下一個代際的領先模型,是硅谷各家的當務之急。
(注:本文轉(zhuǎn)自騰訊網(wǎng),原文《八個問題,帶你零基礎了解DeepSeek》,稍有改動)
還沒有評論,來說兩句吧...