2026-04-24 21:20:24
4月24日,DeepSeek-V4新模型正式發(fā)布,其亮點包括1M超長上下文、Agent能力等。新模型適配華為等國產(chǎn)芯片,引發(fā)關注。英偉達CEO黃仁勛曾稱若DeepSeek成果先在華為平臺出現(xiàn),對美國將是糟糕結果。盡管DeepSeek有部分人才流動,但研究陣容仍龐大。DeepSeek表示將秉持長期主義,努力向實現(xiàn)AGI的目標靠近。
每經(jīng)記者|葉曉丹 每經(jīng)編輯|廖丹
“不誘于譽,不恐于誹,率道而行,端然正己?!?/p>
過去一周,圍繞DeepSeek新模型發(fā)布、適配華為芯片以及融資消息此起彼伏。4月24日,在市場高預期中,DeepSeek-V4新模型正式發(fā)布。
1M超長上下文、Agent 能力、世界知識和推理性能是本次模型亮點,而在模型發(fā)布之外,DeepSeek的上述16字表態(tài)更像是回應市場諸多輿論的一次價值觀宣言。
值得注意的是,盡管此前DeepSeek內部研發(fā)人員流動,但從此次發(fā)布的節(jié)奏和披露的技術作者名單來看,創(chuàng)始人梁文鋒AGI求索的定力依舊很穩(wěn),DeepSeek表示“我們將始終秉持長期主義的原則理念,在嘗試與思考中踏實前行,努力向實現(xiàn) AGI 的目標不斷靠近?!?/p>
此前有分析人士認為,DeepSeek-R1在2025年驚艷出圈后,背負著AI大模型“掃地僧”的包袱,V4大模型未必能延續(xù)去年出圈的驚喜,但DeepSeek直言要“率道而行”。
更被市場聚焦的一個亮點是,此次DeepSeek-V4新模型適配華為等國產(chǎn)芯片。英偉達CEO黃仁勛4月中旬在一檔播客節(jié)目中直言“DeepSeek的進步意義重大。要是哪天像DeepSeek這樣的成果先在華為平臺上出現(xiàn),那對美國會是非常糟糕的結果?!?/p>
靴子落地,國產(chǎn)大模型適配國產(chǎn)半導體迎來了全新AI敘事空間。
浙江浙大網(wǎng)新圖靈信息科技有限公司總工程師兼數(shù)科事業(yè)部總經(jīng)理楊慶在接受《每日經(jīng)濟新聞》記者采訪時表示,DeepSeek-V4的發(fā)布,其意義遠不止于單一模型參數(shù)的躍升,而是一場涉及模型架構、應用范式與底層算力生態(tài)的系統(tǒng)性變革。
DeepSeek最新技術報告顯示,此次發(fā)布的DeepSeek-V4系列的預覽版本,包含兩款強大的專家混合(MoE)語言模型。
它們分別是參數(shù)量為1.6T(激活參數(shù)490億)的DeepSeek-V4-Pro,以及參數(shù)量為2840億(激活參數(shù)130億)的DeepSeek-V4-Flash。
此前DeepSeek官網(wǎng)悄然上線的專家模式,對應的正是此次發(fā)布的新模型DeepSeek-V4-Pro,而快速模式則對應DeepSeek-V4-Flash。
兩個版本模型數(shù)據(jù) 圖片來源:DeepSeek微信公眾號
此次更新的DeepSeek-V4系列新模型的亮點主要表現(xiàn)為擁有百萬字超長上下文,在 Agent 能力、世界知識和推理性能上均實現(xiàn)國內與開源領域的領先。
DeepSeek披露的技術報告顯示,DeepSeek-V4系列在架構和優(yōu)化方面實現(xiàn)了多項關鍵改進。
首先是混合注意力架構,結合壓縮稀疏注意力(CSA)與重度壓縮注意力(HCA)以提升長上下文效率;
其次是流形約束超連接(mHC),增強傳統(tǒng)殘差連接;此外還有Muon優(yōu)化器,實現(xiàn)更快收斂與更高的訓練穩(wěn)定性。DeepSeek使用超過32T多樣化、高質量標記對兩個模型進行預訓練,隨后通過完整的后訓練流程解鎖并進一步提升其性能。
超高上下文效率是此次新模型的亮點之一,DeepSeek方面透露。在百萬詞元的上下文設置下,DeepSeek-V4-Pro所需的單詞元推理FLOPs計算量僅為DeepSeek-V3.2的27%,所需KV緩存空間也僅為其10%。基于這一突破,DeepSeek也同步宣布,從4月24日開始,1M(一百萬)上下文將是DeepSeek所有官方服務的標配。
DeepSeek-V4 和 DeepSeek-V3.2 的計算量和顯存容量隨上下文長度的變化 圖片來源:DeepSeek微信公眾號
新模型發(fā)布后,在國內外開發(fā)者社區(qū)引發(fā)巨大關注。
專注于評估大語言模型(LLM)的排行榜Vals AI在社交媒體表示:“DeepSeek-V4現(xiàn)在是我們Vibe Code Benchmark上排名第一的開源權重模型,而且差距明顯。甚至擊敗了像Gemini3.1Pro這樣的前沿閉源模型?!?/p>
DeepSeek-V4-Pro性能評分 圖片來源:DeepSeek微信公眾號
密歇根州立大學理論物理學及計算數(shù)學、科學與工程學教授Steve Hsu則從使用體驗角度給出判斷。他貼出一段讓模型推演復雜問題的完整推理軌跡,評價其“在數(shù)學和物理方面又快又聰明,最終結果精致且準確”。
英偉達人工智能研究員Rick Lamers看到內部基準測試排名后,評價道“DeepSeek-V4在智能體工程方面的可用性看起來非常高,感覺很棒”。
《每日經(jīng)濟新聞》記者注意到,在DeepSeek技術報告提及性能與開源Mega-Kernel:“我們在 NVIDIA GPU和 HUAWEI Ascend NPU平臺上驗證了該細粒度EP方案。與強大的非融合基線方法相比,該方案在通用推理工作負載中實現(xiàn)了1.50至1.73倍的加速比,在延遲敏感場景(如強化學習部署和高速智能體服務)中加速比最高可達1.96倍?!?/p>
此前DeepSeek-V4遲遲未發(fā)布,市場有消息稱DeepSeek新模型在和華為芯片做適配,從最新DeepSeek技術報告來看,DeepSeek新模型除了適配原有的英偉達芯片外,也在和華為昇騰芯片進行適配。
目前,DeepSeek API已同步上線V4-Pro與V4-Flash。不過,從DeepSeek公布的API接入價格來看,當前V4-Pro接入的成本仍然較高。對此,DeepSeek表示,受限于高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節(jié)點批量上市后,Pro價格會大幅下調。
兩個版本模型接入成本 圖片來源:DeepSeek微信公眾號
謎底揭開,DeepSeek同時適配了英偉達和華為芯片。對DeepSeek和華為芯片的適配,英偉達CEO黃仁勛此前不乏擔心。
在4月中旬一期播客訪談中,黃仁勛表示,要是哪天像DeepSeek這樣的成果先在華為平臺上出現(xiàn),那對美國會是非常糟糕的結果。黃仁勛認為假設DeepSeek針對華為的架構進行優(yōu)化,那么對英偉達來說,就處于劣勢。
黃仁勛的擔心,所為何來?
楊慶在接受每經(jīng)記者采訪時表示,DeepSeek V4的發(fā)布,其意義遠不止于單一模型參數(shù)的躍升,而是一場涉及模型架構、應用范式與底層算力生態(tài)的系統(tǒng)性變革。
楊慶分析,從技術層面看,V4新模型帶來的百萬級上下文窗口以及深度強化的推理規(guī)劃機制,將從根本上拓展AI處理復雜長程任務的邊界。這意味著Agent從“能對話”走向“能辦事”的“最后一公里”正在被打通。
從產(chǎn)業(yè)生態(tài)層面看,V4與國產(chǎn)算力底座的深度適配尤為關鍵。楊慶表示,若這一適配在生產(chǎn)環(huán)境中獲得驗證,其示范效應將加速“去CUDA化”(即擺脫對英偉達CUDA生態(tài)的依賴)進程,推動國產(chǎn)AI芯片從“可用”走向“好用”,并帶動上下游的協(xié)同成熟。對于全球AI競爭格局而言,這標志著中國大模型產(chǎn)業(yè)正邁入以“任務執(zhí)行效率”和“算力自主生態(tài)”為核心競爭力的新賽段。
一個不被注意的細節(jié)是,DeepSeek-V4的技術報告披露了作者名單?!把芯颗c工程”的作者名單里有近300人,其中有10人顯示已經(jīng)離開了DeepSeek團隊。
此前,DeepSeek的人才流動情況備受市場關注。
一度有消息稱,DeepSeek正在進行首次外部融資,目的是為了留住那些以股票期權作為薪酬的員工,防止他們被競爭對手挖走。但截至發(fā)稿,每經(jīng)記者尚未確認該消息真實性。
然而,不可否認的是,一鳴驚人的DeepSeek的確存在部分人才流動的情況,但從此次披露的技術報告名單來看,DeepSeek的研究人才依舊陣容龐大。
《每日經(jīng)濟新聞》記者梳理發(fā)現(xiàn),在近一年的人才流動中,影響最大的當屬郭達雅的離職。郭達雅于2026年3月正式離開DeepSeek,其后加入字節(jié)跳動。
比郭達雅更早離開的是王炳宣,2025年底,王炳宣被騰訊姚順雨團隊挖走。王炳宣是DeepSeek第一代大語言模型DeepSeek LLM的核心作者,此后參與了歷代模型的訓練工作。
另一位核心成員魏浩然約在2026年春節(jié)前后離開。魏浩然是DeepSeek-OCR系列的核心作者,該系列在文檔識別與多模態(tài)處理方面有著重要布局。截至目前,魏浩然的具體去向尚未公開披露。
在時間線上,近一年內最早離開的核心成員是阮翀。阮翀的離職時間約在2025年上半年,離職后他進入了一段休整期,直到2026年1月才正式官宣加入自動駕駛創(chuàng)業(yè)公司元戎啟行。
此外,被外界稱為“AI天才少女”的羅福莉也在這一輪人才流動中離開了DeepSeek。2025年11月12日,羅福莉正式官宣加入小米,出任小米MiMo大模型負責人。
但另一方面,DeepSeek也在加大人才招聘力度。從釋放的崗位來看,DeepSeek正在強化Agent研究人才儲備,4月24日發(fā)布的一系列招聘崗位中,有不少和Agent相關的崗位。譬如Agent全棧開發(fā)工程師、Agent深度學習算法研究員、Agent數(shù)據(jù)策略工程師等。
楊慶認為,未來三至五年,AI行業(yè)的核心演進方向將圍繞三個關鍵詞展開:智能體化、軟硬協(xié)同與可信執(zhí)行。AI應用形態(tài)將從“模型即服務”加速演進為“智能體即生產(chǎn)力”。企業(yè)不再滿足于獲得文本答案,而是期望部署能夠自主規(guī)劃、調用系統(tǒng)、完成閉環(huán)任務的數(shù)字化勞動力。
其次,軟硬協(xié)同將成為降本增效的主戰(zhàn)場。推理成本已成為商業(yè)化的核心約束變量,未來競爭將從算法延伸至芯片指令集、推理框架與模型壓縮的全棧效率之爭。最后,可信執(zhí)行將成為規(guī)模化部署的前提。當Agent開始操作生產(chǎn)系統(tǒng)、處理隱私數(shù)據(jù)時,可審計性、安全邊界與幻覺治理將從學術議題上升為合規(guī)剛需。
然而,國產(chǎn)AI仍在進化之中,DeepSeek在中國AI發(fā)展路徑中,也仍保有對技術的極致探索精神。談及DeepSeek創(chuàng)始人梁文鋒,網(wǎng)易副總裁、網(wǎng)易智企總經(jīng)理阮良此前在接受每經(jīng)記者采訪時認為,作為浙大校友,梁文鋒身上有著一種極客專注精神,不會因為外界干擾而影響自身的判斷和方向。
4月24日,DeepSeek在最后也強調“我們將始終秉持長期主義的原則理念,在嘗試與思考中踏實前行,努力向實現(xiàn)AGI的目標不斷靠近?!?/p>
(實習生張京寶對本文亦有貢獻)
封面圖片來源:蘭素英
如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP