速度提升2.5倍、成本創新低!Gemini 3.1 Flash-Lite搶攻高流量AI市場

▲Google推出Gemini 3.1 Flash-Lite搶攻高流量AI市場。(圖/Google)

記者吳立言/綜合報導

Google 今(4日)宣布推出全新模型 Gemini 3.1 Flash-Lite,定位為 Gemini 3 系列中速度最快、成本最低的一款產品,專為高流量、規模化部署場景打造。該模型即日起以預覽版形式,透過 Gemini API 在 Google AI Studio 向開發者開放,同步也於 Vertex AI 提供企業用戶測試。

每百萬 Token 0.25 美元 鎖定高頻工作負載

根據官方資訊,Gemini 3.1 Flash-Lite 定價為每百萬輸入 Token 0.25 美元、輸出 Token 1.50 美元,主打「在不犧牲品質下實現成本優化」。Google 表示,相較於前代 2.5 Flash,新模型在首個回應 Token 生成時間(Time to First Token)提升 2.5 倍,整體輸出速度提升 45%,同時維持相當甚至更佳的生成品質。

[廣告]請繼續往下閱讀...

在第三方 Artificial Analysis 基準測試中,3.1 Flash-Lite 的效能表現優於 2.5 Flash,顯示其在高頻、低延遲應用場景具備優勢,例如即時客服、內容生成、自動回覆與資料處理等需求。 推理與多模態能力同步升級 除了速度與成本優勢外,Gemini 3.1 Flash-Lite 在多項基準測試中亦取得亮眼成績。該模型於 Arena.ai Leaderboard 拿下 1432 的 Elo 分數,在推理與多模態理解測試中,於 GPQA Diamond 達到 86.9%、MMMU Pro 為 76.8%,甚至超越部分前代較大型的 Gemini 模型。

這意味著 Flash-Lite 並非單純縮小模型規模,而是在保有一定推理能力的前提下,進一步壓低延遲與成本,使其更適合大規模部署。

支援「Thinking Levels」 兼顧效率與彈性

Gemini 3.1 Flash-Lite 也內建「Thinking Levels」功能,讓開發者可在 Google AI Studio 與 Vertex AI 中自行調整模型思考深度,以在成本與推理精度間取得平衡。 Google 指出,該模型適用於高量翻譯、內容審查等成本敏感任務,同時也能應對較複雜的需求,例如生成使用者介面、建立儀表板、執行模擬或遵循多步驟指令。

官方示範中,3.1 Flash-Lite 能快速為電商網站線框稿自動填入數百項商品資料,展現其在結構化生成任務上的能力。

企業提前導入 強調可規模化應用

目前已有包括 Latitude、Cartwheel 與 Whering 等公司在早期測試階段導入 3.1 Flash-Lite。Google 表示,早期開發者回饋指出,新模型在處理複雜輸入時具備接近大型模型的精準度,同時能穩定遵循指令。

整體而言,Gemini 3.1 Flash-Lite 代表 Google 在「高效能、低成本」模型策略上的進一步布局。在生成式 AI 應用逐步從實驗走向大規模商業化部署之際,能否兼顧推理能力與成本控制,將成為企業選型的關鍵指標。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【89猴湊一對】男違停路中比中指譙三字經 金髮女上車前眼抽筋瞪5秒

【89猴湊一對】男違停路中比中指譙三字經 金髮女上車前眼抽筋瞪5秒

【一抽入魂】爸爸代抽兵種抽中海軍陸戰隊!全場驚呆

【一抽入魂】爸爸代抽兵種抽中海軍陸戰隊!全場驚呆

直播遭私生連環叩 aespa寧藝卓:別再打了!

直播遭私生連環叩 aespa寧藝卓:別再打了!

球友看WBC熱血噴發即刻開打 ,靠普拿疼肌立快速擊退酸痛

球友看WBC熱血噴發即刻開打 ,靠普拿疼肌立快速擊退酸痛

陳子強爆感情風波後首露面 回應「一切交給公司處理」

陳子強爆感情風波後首露面 回應「一切交給公司處理」

讀者迴響

ChatGPT能免費使用嗎?

有免費版本,適合多數基本用途。若升級付費(如 ChatGPT Plus),可使用更強大的GPT-4模型,回應速度快、理解力更好、支援圖片與檔案分析。免費用戶功能有限,無法使用進階工具。

最夯影音

更多

熱門快報

回到網頁頂端