
記者吳立言/綜合報導
Google 今(4日)宣布推出全新模型 Gemini 3.1 Flash-Lite,定位為 Gemini 3 系列中速度最快、成本最低的一款產品,專為高流量、規模化部署場景打造。該模型即日起以預覽版形式,透過 Gemini API 在 Google AI Studio 向開發者開放,同步也於 Vertex AI 提供企業用戶測試。
每百萬 Token 0.25 美元 鎖定高頻工作負載
根據官方資訊,Gemini 3.1 Flash-Lite 定價為每百萬輸入 Token 0.25 美元、輸出 Token 1.50 美元,主打「在不犧牲品質下實現成本優化」。Google 表示,相較於前代 2.5 Flash,新模型在首個回應 Token 生成時間(Time to First Token)提升 2.5 倍,整體輸出速度提升 45%,同時維持相當甚至更佳的生成品質。
在第三方 Artificial Analysis 基準測試中,3.1 Flash-Lite 的效能表現優於 2.5 Flash,顯示其在高頻、低延遲應用場景具備優勢,例如即時客服、內容生成、自動回覆與資料處理等需求。 推理與多模態能力同步升級 除了速度與成本優勢外,Gemini 3.1 Flash-Lite 在多項基準測試中亦取得亮眼成績。該模型於 Arena.ai Leaderboard 拿下 1432 的 Elo 分數,在推理與多模態理解測試中,於 GPQA Diamond 達到 86.9%、MMMU Pro 為 76.8%,甚至超越部分前代較大型的 Gemini 模型。
這意味著 Flash-Lite 並非單純縮小模型規模,而是在保有一定推理能力的前提下,進一步壓低延遲與成本,使其更適合大規模部署。
支援「Thinking Levels」 兼顧效率與彈性
Gemini 3.1 Flash-Lite 也內建「Thinking Levels」功能,讓開發者可在 Google AI Studio 與 Vertex AI 中自行調整模型思考深度,以在成本與推理精度間取得平衡。 Google 指出,該模型適用於高量翻譯、內容審查等成本敏感任務,同時也能應對較複雜的需求,例如生成使用者介面、建立儀表板、執行模擬或遵循多步驟指令。
官方示範中,3.1 Flash-Lite 能快速為電商網站線框稿自動填入數百項商品資料,展現其在結構化生成任務上的能力。
企業提前導入 強調可規模化應用
目前已有包括 Latitude、Cartwheel 與 Whering 等公司在早期測試階段導入 3.1 Flash-Lite。Google 表示,早期開發者回饋指出,新模型在處理複雜輸入時具備接近大型模型的精準度,同時能穩定遵循指令。
整體而言,Gemini 3.1 Flash-Lite 代表 Google 在「高效能、低成本」模型策略上的進一步布局。在生成式 AI 應用逐步從實驗走向大規模商業化部署之際,能否兼顧推理能力與成本控制,將成為企業選型的關鍵指標。
