每筆任務半價＋支援十億tokens！Gemini API批次模式重磅登場

▲▼Google Gemini。（圖／Google）

▲Google Gemini。（圖／Google）

記者吳立言／綜合報導

Google今（8日）凌晨宣布，旗下Gemini API正式推出全新「Batch Mode（批次模式）」，主打支援非即時任務的大規模處理需求，且處理費用比同步模式便宜50%。這項新功能同步支援Gemini 2.5 Flash與Pro模型，最高可一次排入數十億個tokens，為企業與研究單位提供一套更具成本效益的高效解決方案。

本次推出的批次模式屬非同步處理架構，使用者只需將所有請求打包成JSONL檔案後提交，Google將代為排程與處理，並保證在24小時內完成回傳。這讓開發者不必煩惱速率限制或複雜的排隊邏輯，特別適合AI生成、資料標記、模型評估等「資料量大、但不需即時回應」的任務情境。批次模式有以下三大核心優勢：
＊價格砍半：所有批次任務處理費用為原同步API的50%。
＊吞吐量升級：支援一次性排入數十億tokens，遠超即時模式上限。
＊開發體驗簡化：上傳一次請求包，即可輕鬆完成大規模任務提交與追蹤。
Google GenAI 團隊產品經理 Lucia Loher 與解決方案工程師 Vishal Dharmadhikari 表示，這項功能能有效區隔即時與非即時工作流，進一步提升整體資源使用效率，讓開發者與 AI 團隊能專注在模型表現與資料策略。
專注於影片理解的AI公司Reforged Labs已透過Gemini 2.5 Pro批次模式進行大規模廣告影片標記與內容生成，成功降低成本、加快交付、擴大處理量能，成為批次模式首波實績之一。

[廣告]請繼續往下閱讀...

另一家模型評估公司Vals AI則運用批次處理測試不同領域（如法律、醫療、財稅）的語言模型，避免受限於即時API的速率瓶頸。

Google產品發言人Logan Kilpatrick亦於社群平台X發文確認「我們剛剛正式推出Gemini API的Batch Mode，不只處理費用減半，還支援一次排入數十億tokens的龐大請求。」此一功能特別適合處理如生成式AI工具的內容批次輸出、教育與研究機構的模型評估實驗、企業內部大量語言處理、轉錄與翻譯需求，以及廣告影片標記、文件分類等需要高頻率處理的大型任務情境，能大幅提升處理效率並有效降低整體成本。

Google表示，批次模式將於今日起全面開放所有Gemini API使用者，並將持續擴展更多支援模式與資源分配策略，未來還計畫引入進一步的任務排程優化與彈性排程API。