要聞

V4新模型炸場，DeepSeek率道而行，梁文鋒AGI求索定力不改

2026-04-24 21:20:24

4月24日，DeepSeek-V4新模型正式發(fā)布，其亮點包括1M超長上下文、Agent能力等。新模型適配華為等國產(chǎn)芯片，引發(fā)關注。英偉達CEO黃仁勛曾稱若DeepSeek成果先在華為平臺出現(xiàn)，對美國將是糟糕結果。盡管DeepSeek有部分人才流動，但研究陣容仍龐大。DeepSeek表示將秉持長期主義，努力向實現(xiàn)AGI的目標靠近。

每經(jīng)記者｜葉曉丹每經(jīng)編輯｜廖丹

“不誘于譽，不恐于誹，率道而行，端然正己?！?/p>

過去一周，圍繞DeepSeek新模型發(fā)布、適配華為芯片以及融資消息此起彼伏。4月24日，在市場高預期中，DeepSeek-V4新模型正式發(fā)布。

1M超長上下文、Agent 能力、世界知識和推理性能是本次模型亮點，而在模型發(fā)布之外，DeepSeek的上述16字表態(tài)更像是回應市場諸多輿論的一次價值觀宣言。

值得注意的是，盡管此前DeepSeek內部研發(fā)人員流動，但從此次發(fā)布的節(jié)奏和披露的技術作者名單來看，創(chuàng)始人梁文鋒AGI求索的定力依舊很穩(wěn)，DeepSeek表示“我們將始終秉持長期主義的原則理念，在嘗試與思考中踏實前行，努力向實現(xiàn) AGI 的目標不斷靠近?！?/p>

此前有分析人士認為，DeepSeek-R1在2025年驚艷出圈后，背負著AI大模型“掃地僧”的包袱，V4大模型未必能延續(xù)去年出圈的驚喜，但DeepSeek直言要“率道而行”。

更被市場聚焦的一個亮點是，此次DeepSeek-V4新模型適配華為等國產(chǎn)芯片。英偉達CEO黃仁勛4月中旬在一檔播客節(jié)目中直言“DeepSeek的進步意義重大。要是哪天像DeepSeek這樣的成果先在華為平臺上出現(xiàn)，那對美國會是非常糟糕的結果?！?/p>

靴子落地，國產(chǎn)大模型適配國產(chǎn)半導體迎來了全新AI敘事空間。

浙江浙大網(wǎng)新圖靈信息科技有限公司總工程師兼數(shù)科事業(yè)部總經(jīng)理楊慶在接受《每日經(jīng)濟新聞》記者采訪時表示，DeepSeek-V4的發(fā)布，其意義遠不止于單一模型參數(shù)的躍升，而是一場涉及模型架構、應用范式與底層算力生態(tài)的系統(tǒng)性變革。

DeepSeek-V4結構創(chuàng)新，海外開發(fā)者熱議

DeepSeek最新技術報告顯示，此次發(fā)布的DeepSeek-V4系列的預覽版本，包含兩款強大的專家混合（MoE）語言模型。

它們分別是參數(shù)量為1.6T（激活參數(shù)490億）的DeepSeek-V4-Pro，以及參數(shù)量為2840億（激活參數(shù)130億）的DeepSeek-V4-Flash。

此前DeepSeek官網(wǎng)悄然上線的專家模式，對應的正是此次發(fā)布的新模型DeepSeek-V4-Pro，而快速模式則對應DeepSeek-V4-Flash。

兩個版本模型數(shù)據(jù) 圖片來源：DeepSeek微信公眾號

此次更新的DeepSeek-V4系列新模型的亮點主要表現(xiàn)為擁有百萬字超長上下文，在 Agent 能力、世界知識和推理性能上均實現(xiàn)國內與開源領域的領先。

DeepSeek披露的技術報告顯示，DeepSeek-V4系列在架構和優(yōu)化方面實現(xiàn)了多項關鍵改進。

首先是混合注意力架構，結合壓縮稀疏注意力（CSA）與重度壓縮注意力（HCA）以提升長上下文效率；

其次是流形約束超連接（mHC），增強傳統(tǒng)殘差連接；此外還有Muon優(yōu)化器，實現(xiàn)更快收斂與更高的訓練穩(wěn)定性。DeepSeek使用超過32T多樣化、高質量標記對兩個模型進行預訓練，隨后通過完整的后訓練流程解鎖并進一步提升其性能。

超高上下文效率是此次新模型的亮點之一，DeepSeek方面透露。在百萬詞元的上下文設置下，DeepSeek-V4-Pro所需的單詞元推理FLOPs計算量僅為DeepSeek-V3.2的27%，所需KV緩存空間也僅為其10%。基于這一突破，DeepSeek也同步宣布，從4月24日開始，1M（一百萬）上下文將是DeepSeek所有官方服務的標配。

DeepSeek-V4 和 DeepSeek-V3.2 的計算量和顯存容量隨上下文長度的變化圖片來源：DeepSeek微信公眾號

新模型發(fā)布后，在國內外開發(fā)者社區(qū)引發(fā)巨大關注。

專注于評估大語言模型（LLM）的排行榜Vals AI在社交媒體表示：“DeepSeek-V4現(xiàn)在是我們Vibe Code Benchmark上排名第一的開源權重模型，而且差距明顯。甚至擊敗了像Gemini3.1Pro這樣的前沿閉源模型?！?/p>

DeepSeek-V4-Pro性能評分圖片來源：DeepSeek微信公眾號

密歇根州立大學理論物理學及計算數(shù)學、科學與工程學教授Steve Hsu則從使用體驗角度給出判斷。他貼出一段讓模型推演復雜問題的完整推理軌跡，評價其“在數(shù)學和物理方面又快又聰明，最終結果精致且準確”。

英偉達人工智能研究員Rick Lamers看到內部基準測試排名后，評價道“DeepSeek-V4在智能體工程方面的可用性看起來非常高，感覺很棒”。

DeepSeek新模型適配華為芯片，黃仁勛也擔心

《每日經(jīng)濟新聞》記者注意到，在DeepSeek技術報告提及性能與開源Mega-Kernel：“我們在 NVIDIA GPU和 HUAWEI Ascend NPU平臺上驗證了該細粒度EP方案。與強大的非融合基線方法相比，該方案在通用推理工作負載中實現(xiàn)了1.50至1.73倍的加速比，在延遲敏感場景（如強化學習部署和高速智能體服務）中加速比最高可達1.96倍?！?/p>

此前DeepSeek-V4遲遲未發(fā)布，市場有消息稱DeepSeek新模型在和華為芯片做適配，從最新DeepSeek技術報告來看，DeepSeek新模型除了適配原有的英偉達芯片外，也在和華為昇騰芯片進行適配。

目前，DeepSeek API已同步上線V4-Pro與V4-Flash。不過，從DeepSeek公布的API接入價格來看，當前V4-Pro接入的成本仍然較高。對此，DeepSeek表示，受限于高端算力，目前Pro的服務吞吐十分有限，預計下半年昇騰950超節(jié)點批量上市后，Pro價格會大幅下調。

兩個版本模型接入成本圖片來源：DeepSeek微信公眾號

謎底揭開，DeepSeek同時適配了英偉達和華為芯片。對DeepSeek和華為芯片的適配，英偉達CEO黃仁勛此前不乏擔心。

在4月中旬一期播客訪談中，黃仁勛表示，要是哪天像DeepSeek這樣的成果先在華為平臺上出現(xiàn)，那對美國會是非常糟糕的結果。黃仁勛認為假設DeepSeek針對華為的架構進行優(yōu)化，那么對英偉達來說，就處于劣勢。

黃仁勛的擔心，所為何來？

楊慶在接受每經(jīng)記者采訪時表示，DeepSeek V4的發(fā)布，其意義遠不止于單一模型參數(shù)的躍升，而是一場涉及模型架構、應用范式與底層算力生態(tài)的系統(tǒng)性變革。

楊慶分析，從技術層面看，V4新模型帶來的百萬級上下文窗口以及深度強化的推理規(guī)劃機制，將從根本上拓展AI處理復雜長程任務的邊界。這意味著Agent從“能對話”走向“能辦事”的“最后一公里”正在被打通。

從產(chǎn)業(yè)生態(tài)層面看，V4與國產(chǎn)算力底座的深度適配尤為關鍵。楊慶表示，若這一適配在生產(chǎn)環(huán)境中獲得驗證，其示范效應將加速“去CUDA化”（即擺脫對英偉達CUDA生態(tài)的依賴）進程，推動國產(chǎn)AI芯片從“可用”走向“好用”，并帶動上下游的協(xié)同成熟。對于全球AI競爭格局而言，這標志著中國大模型產(chǎn)業(yè)正邁入以“任務執(zhí)行效率”和“算力自主生態(tài)”為核心競爭力的新賽段。

DeepSeek真的被挖空了？梁文鋒定力依然很穩(wěn)

一個不被注意的細節(jié)是，DeepSeek-V4的技術報告披露了作者名單?！把芯颗c工程”的作者名單里有近300人，其中有10人顯示已經(jīng)離開了DeepSeek團隊。

此前，DeepSeek的人才流動情況備受市場關注。

一度有消息稱，DeepSeek正在進行首次外部融資，目的是為了留住那些以股票期權作為薪酬的員工，防止他們被競爭對手挖走。但截至發(fā)稿，每經(jīng)記者尚未確認該消息真實性。

然而，不可否認的是，一鳴驚人的DeepSeek的確存在部分人才流動的情況，但從此次披露的技術報告名單來看，DeepSeek的研究人才依舊陣容龐大。

《每日經(jīng)濟新聞》記者梳理發(fā)現(xiàn)，在近一年的人才流動中，影響最大的當屬郭達雅的離職。郭達雅于2026年3月正式離開DeepSeek，其后加入字節(jié)跳動。

比郭達雅更早離開的是王炳宣，2025年底，王炳宣被騰訊姚順雨團隊挖走。王炳宣是DeepSeek第一代大語言模型DeepSeek LLM的核心作者，此后參與了歷代模型的訓練工作。

另一位核心成員魏浩然約在2026年春節(jié)前后離開。魏浩然是DeepSeek-OCR系列的核心作者，該系列在文檔識別與多模態(tài)處理方面有著重要布局。截至目前，魏浩然的具體去向尚未公開披露。

在時間線上，近一年內最早離開的核心成員是阮翀。阮翀的離職時間約在2025年上半年，離職后他進入了一段休整期，直到2026年1月才正式官宣加入自動駕駛創(chuàng)業(yè)公司元戎啟行。

此外，被外界稱為“AI天才少女”的羅福莉也在這一輪人才流動中離開了DeepSeek。2025年11月12日，羅福莉正式官宣加入小米，出任小米MiMo大模型負責人。

但另一方面，DeepSeek也在加大人才招聘力度。從釋放的崗位來看，DeepSeek正在強化Agent研究人才儲備，4月24日發(fā)布的一系列招聘崗位中，有不少和Agent相關的崗位。譬如Agent全棧開發(fā)工程師、Agent深度學習算法研究員、Agent數(shù)據(jù)策略工程師等。

楊慶認為，未來三至五年，AI行業(yè)的核心演進方向將圍繞三個關鍵詞展開：智能體化、軟硬協(xié)同與可信執(zhí)行。AI應用形態(tài)將從“模型即服務”加速演進為“智能體即生產(chǎn)力”。企業(yè)不再滿足于獲得文本答案，而是期望部署能夠自主規(guī)劃、調用系統(tǒng)、完成閉環(huán)任務的數(shù)字化勞動力。

其次，軟硬協(xié)同將成為降本增效的主戰(zhàn)場。推理成本已成為商業(yè)化的核心約束變量，未來競爭將從算法延伸至芯片指令集、推理框架與模型壓縮的全棧效率之爭。最后，可信執(zhí)行將成為規(guī)模化部署的前提。當Agent開始操作生產(chǎn)系統(tǒng)、處理隱私數(shù)據(jù)時，可審計性、安全邊界與幻覺治理將從學術議題上升為合規(guī)剛需。

然而，國產(chǎn)AI仍在進化之中，DeepSeek在中國AI發(fā)展路徑中，也仍保有對技術的極致探索精神。談及DeepSeek創(chuàng)始人梁文鋒，網(wǎng)易副總裁、網(wǎng)易智企總經(jīng)理阮良此前在接受每經(jīng)記者采訪時認為，作為浙大校友，梁文鋒身上有著一種極客專注精神，不會因為外界干擾而影響自身的判斷和方向。

4月24日，DeepSeek在最后也強調“我們將始終秉持長期主義的原則理念，在嘗試與思考中踏實前行，努力向實現(xiàn)AGI的目標不斷靠近?！?/p>

（實習生張京寶對本文亦有貢獻）

封面圖片來源：蘭素英

如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

光啟技術：公司905基地相關建設和產(chǎn)能配套工作均在有序推進中

返回每經(jīng)網(wǎng)首頁

下一篇文章

生益科技：2025年凈利潤33.34億元同比增長91.75%