DeepSeek正在重新定義大模型普惠的邊界。
4月26日,DeepSeek官方發布API價格調整公告,全系API輸入緩存命中價格降至首發價的十分之一,V4‑Pro更疊加限時2.5折,百萬Tokens輸入緩存命中低至0.025元,創全球大模型價格新低。
根據DeepSeek官方API定價頁面公示,本次降價覆蓋V4系列全模型,核心調整集中在輸入緩存命中場景。其中DeepSeek-V4-Flash輸入緩存命中價格從0.2元/百萬Tokens降至0.02元/百萬Tokens。
面向企業級用戶的DeepSeek-V4-Pro優惠力度更大,原價1元/百萬Tokens的緩存輸入降至0.1元,2026年5月5日前疊加2.5折限時特惠,實際僅0.025元/百萬Tokens,緩存未命中輸入從12元降至3元,輸出從24元降至6元。
DeepSeek方面提及,DeepSeek-Chat與DeepSeek-Reasoner兩個模型名將于日后棄用。出于兼容考慮,二者分別對應DeepSeek-V4-Flash的非思考與思考模式。
對比調價前后不難發現,高頻調用、長文本處理場景成本降幅超90%,RAG知識庫、智能客服、文檔分析等緩存命中率高的應用,可直接實現商用成本斷崖式下跌,有助于打破AI規模化落地的成本枷鎖。
DeepSeek大幅降價背后,與DeepSeek‑V4的技術升級以及和昇騰生態的深度協同有關。
4月24日,DeepSeek‑V4預覽版正式發布,同步開源Pro與Flash兩款模型,均支持100萬token超長上下文,自研稀疏注意力架構讓推理算力消耗大幅降低,Pro版單token算力僅為V3.2的27%,KV緩存降至10%,從底層實現成本優化。
DeepSeek方面公布的參數顯示,DeepSeek‑V4‑Pro激活參數49B、預訓練數據33T,定位高性能旗艦;DeepSeek‑V4‑Flash激活參數13B、預訓練數據32T,主打高速與低成本。
與前代模型比較,DeepSeek-V4-Pro的Agent能力顯著增強。在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平,并在其他Agent相關評測中同樣表現優異。據悉,目前DeepSeek-V4已成為DeepSeek內部員工使用的 Agentic Coding模型,據評測反饋使用體驗優于Sonnet 4.5,交付質量接近Claude Opus 4.6非思考模式,但仍與Opus 4.6思考模式存在一定差距。
在世界知識測評中,DeepSeek-V4-Pro大幅領先其他開源模型,稍遜于頂尖閉源模型Gemini-Pro-3.1。而在數學、STEM、競賽型代碼的測評中,DeepSeek-V4-Pro超越當前所有已公開評測的開源模型,比肩世界頂級閉源模型。
相比DeepSeek-V4-Pro,DeepSeek-V4-Flash在世界知識儲備方面稍遜一籌,但展現出了接近的推理能力。而由于模型參數和激活更小,相較之下V4-Flash能夠提供更加快捷、經濟的API服務。
DeepSeek-V4還開創了一種新的注意力機制,在token維度進行壓縮,結合DSA稀疏注意力(DeepSeek Sparse Attention),實現了全球領先的長上下文能力,并且相比于傳統方法大幅降低了對計算和顯存的需求。
更值得關注的是,昇騰超節點全系列產品支持DeepSeek V4系列模型。這也意味著,DeepSeek釋放了更多國產化信號。
DeepSeek-V4在一份技術報告中提及,“在英偉達GPU和華為昇騰NPU兩個平臺上驗證了細粒度EP(專家并行)方案,與強力的非融合(non-fused)基線相比,該方案在通用推理任務中實現了1.50-1.73倍加速;在對延遲敏感的場景(例如強化學習(RL)rollout 和高速 Agent 服務)中,最高可達1.96倍加速。”
DeepSeek強調,隨著下半年昇騰超節點全系列產品批量上市,Pro版價格有望大幅下調。
DeepSeek-V4發布后,高盛發布分析報告指出,DeepSeek V4的核心意義在于以更低成本支持更復雜的智能體應用落地,從而打開AI應用規模化的新空間。對于納入昇騰超節點,高盛認為DeepSeek的成本競爭力將進一步強化,為更廣泛的應用落地創造條件。此外,在芯片持續收緊的背景下,中國頂尖AI模型向國產算力遷移的趨勢得到頭部玩家的明確背書。
高盛報告還援引新聞報道稱,騰訊和阿里正在洽談以逾200億美元估值投資DeepSeek,而智譜和MiniMax的最新市值分別約為530億美元和310億美元,這一潛在交易折射出巨頭對稀缺頂層AI能力的爭奪邏輯。
而華泰證券(18.750, -0.03, -0.16%)認為,市場容易將V4理解為“降本壓低算力、存儲需求”,但更重要的邊際變化在于長上下文成本下降后,復雜Agent、多文檔分析、長周期任務、在線學習等場景可用性提升,推理調用量與存儲訪問頻次有望擴張。