網傳Deepseek近日將釋出R2模型 1.2兆參數、長文推理成本降97%

▲▼Deepseek。(圖/路透)

▲網傳Deepseek近日將釋出R2模型。(圖/路透)

記者吳立言/綜合報導

中國AI新創公司DeepSeek近期傳出即將推出全新大模型DeepSeek R2,主打12,000億參數規模與自主研發的Hybrid MoE 3.0架構,並以華為昇騰910B晶片作為主要運行平台。根據網友爆料,R2在模型創新、資料工程與硬體適配三大層面均取得重大突破,預期將在大模型競爭版圖上掀起新一波震撼。

開源AI平台HuggingFace執行長也於X(前推特)發文,分享DeepSeek頁面並配文「????????????」,引發外界猜測可能將有重大更新。

[廣告]請繼續往下閱讀...

在模型設計層面,DeepSeek R2據傳採用自主開發的Hybrid MoE 3.0(混合專家模型),實現1.2萬億參數規模,同時透過動態激活技術,推理時實際僅需計算780億參數。根據阿里雲內部測試,R2在長文本推理任務中,每個token的成本比GPT-4 Turbo下降了97.3%(數據來自IDC算力經濟模型分析),展現出極高運行效率。

資料工程方面,DeepSeek團隊建構了一套涵蓋金融、法律、專利等領域的5.2PB高品質語料庫,並透過多階段語義蒸餾技術,使模型的指令遵循準確率提升至89.7%(C-Eval 2.0測試集對比結果),表現顯著優於部分同類模型。

硬體層面,DeepSeek自研的分布式訓練框架,據稱使華為昇騰910B晶片集群的利用率達到82%。在FP16精度模式下,實測總算力達512 PetaFLOPS,相當於同規模NVIDIA A100集群91%的效能(根據華為實驗室數據)。
應用層面上,DeepSeek R2展現出強大的多模態處理能力。首先,在視覺理解方面,R2據悉採用ViT-Transformer混合架構,在COCO資料集物體分割任務中達到92.4%的mAP精度,相比CLIP模型提升了11.6個百分點。

在工業場景應用中,R2透過自適應特徵融合演算法,於電致發光(Electroluminescence,EL)缺陷檢測任務中將誤檢率壓縮至7.2E-6(隆基股份產線實測數據),有望顯著提升檢測可靠性。

在醫療診斷領域,結合知識圖譜增強技術,DeepSeek R2在胸部X光片多病種識別任務中達到98.1%的準確率,成為醫療AI應用的新亮點之一。

值得注意的是,R2的量化壓縮技術據稱已能在8bit精度下縮減83%的模型體積,同時保持小於2%的精度損失,為未來端側部署奠定了重要技術基礎。

隨著DeepSeek R2即將正式亮相,中國本土AI勢力在大模型領域持續加速推進。若相關表現屬實,R2展現出挑戰國際領導者的潛力。未來隨著正式發布,DeepSeek R2有望成為推動AI技術演進的重要推手,值得業界持續關注。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【最後提醒隊員要小心...】基隆消防小隊長詹能傑殉職 叮囑「衣服堆得像山」

【最後提醒隊員要小心...】基隆消防小隊長詹能傑殉職 叮囑「衣服堆得像山」

【屏東佛心房東】月砸2萬「免費供早餐、飲料」 百名房客月省3千

【屏東佛心房東】月砸2萬「免費供早餐、飲料」 百名房客月省3千

【救人反被揍?】26歲男把護理師打到腦震盪! 同事飛越櫃檯救人

【救人反被揍?】26歲男把護理師打到腦震盪! 同事飛越櫃檯救人

趙雨凡爸媽現身AAA後台! 到高雄看兒子「緊緊擁抱」

趙雨凡爸媽現身AAA後台! 到高雄看兒子「緊緊擁抱」

【哽咽送別】詹能傑「同年同月同日生」兄弟想罵他:你太衝了...

【哽咽送別】詹能傑「同年同月同日生」兄弟想罵他:你太衝了...

讀者迴響

聊天AI哪個支援中文最好?

目前ChatGPT、Claude、Gemini都支援繁體中文,回覆自然,初學者建議從ChatGPT開始。

最夯影音

更多

熱門快報

回到網頁頂端