網傳Deepseek近日將釋出R2模型　1.2兆參數、長文推理成本降97%

▲▼Deepseek。（圖／路透）

▲網傳Deepseek近日將釋出R2模型。（圖／路透）

記者吳立言／綜合報導

中國AI新創公司DeepSeek近期傳出即將推出全新大模型DeepSeek R2，主打12,000億參數規模與自主研發的Hybrid MoE 3.0架構，並以華為昇騰910B晶片作為主要運行平台。根據網友爆料，R2在模型創新、資料工程與硬體適配三大層面均取得重大突破，預期將在大模型競爭版圖上掀起新一波震撼。

開源AI平台HuggingFace執行長也於X（前推特）發文，分享DeepSeek頁面並配文「????????????」，引發外界猜測可能將有重大更新。

[廣告]請繼續往下閱讀...

???????????? https://t.co/mekr0Drodq pic.twitter.com/7MQa2ak7oV
— clem ???? (@ClementDelangue) April 27, 2025

在模型設計層面，DeepSeek R2據傳採用自主開發的Hybrid MoE 3.0（混合專家模型），實現1.2萬億參數規模，同時透過動態激活技術，推理時實際僅需計算780億參數。根據阿里雲內部測試，R2在長文本推理任務中，每個token的成本比GPT-4 Turbo下降了97.3%（數據來自IDC算力經濟模型分析），展現出極高運行效率。

資料工程方面，DeepSeek團隊建構了一套涵蓋金融、法律、專利等領域的5.2PB高品質語料庫，並透過多階段語義蒸餾技術，使模型的指令遵循準確率提升至89.7%（C-Eval 2.0測試集對比結果），表現顯著優於部分同類模型。

硬體層面，DeepSeek自研的分布式訓練框架，據稱使華為昇騰910B晶片集群的利用率達到82%。在FP16精度模式下，實測總算力達512 PetaFLOPS，相當於同規模NVIDIA A100集群91%的效能（根據華為實驗室數據）。
應用層面上，DeepSeek R2展現出強大的多模態處理能力。首先，在視覺理解方面，R2據悉採用ViT-Transformer混合架構，在COCO資料集物體分割任務中達到92.4%的mAP精度，相比CLIP模型提升了11.6個百分點。

在工業場景應用中，R2透過自適應特徵融合演算法，於電致發光（Electroluminescence，EL）缺陷檢測任務中將誤檢率壓縮至7.2E-6（隆基股份產線實測數據），有望顯著提升檢測可靠性。

在醫療診斷領域，結合知識圖譜增強技術，DeepSeek R2在胸部X光片多病種識別任務中達到98.1%的準確率，成為醫療AI應用的新亮點之一。

????Viral rumors of DeepSeek R2 leaked!

—1.2T param, 78B active, hybrid MoE
—97.3% cheaper than GPT 4o ($0.07/M in, $0.27/M out)
—5.2PB training data. 89.7% on C-Eval2.0
—Better vision. 92.4% on COCO
—82% utilization in Huawei Ascend 910B

Big shift away from US supply chain. pic.twitter.com/Jncg0PvEYU
— Deedy (@deedydas) April 26, 2025