▲Google Gemini。(圖/Google)
記者吳立言/綜合報導
Google今(8日)凌晨宣布,旗下Gemini API正式推出全新「Batch Mode(批次模式)」,主打支援非即時任務的大規模處理需求,且處理費用比同步模式便宜50%。這項新功能同步支援Gemini 2.5 Flash與Pro模型,最高可一次排入數十億個tokens,為企業與研究單位提供一套更具成本效益的高效解決方案。
本次推出的批次模式屬非同步處理架構,使用者只需將所有請求打包成JSONL檔案後提交,Google將代為排程與處理,並保證在24小時內完成回傳。這讓開發者不必煩惱速率限制或複雜的排隊邏輯,特別適合AI生成、資料標記、模型評估等「資料量大、但不需即時回應」的任務情境。批次模式有以下三大核心優勢:
*價格砍半:所有批次任務處理費用為原同步API的50%。
*吞吐量升級:支援一次性排入數十億tokens,遠超即時模式上限。
*開發體驗簡化:上傳一次請求包,即可輕鬆完成大規模任務提交與追蹤。
Google GenAI 團隊產品經理 Lucia Loher 與解決方案工程師 Vishal Dharmadhikari 表示,這項功能能有效區隔即時與非即時工作流,進一步提升整體資源使用效率,讓開發者與 AI 團隊能專注在模型表現與資料策略。
專注於影片理解的AI公司Reforged Labs已透過Gemini 2.5 Pro批次模式進行大規模廣告影片標記與內容生成,成功降低成本、加快交付、擴大處理量能,成為批次模式首波實績之一。
另一家模型評估公司Vals AI則運用批次處理測試不同領域(如法律、醫療、財稅)的語言模型,避免受限於即時API的速率瓶頸。
Google產品發言人Logan Kilpatrick亦於社群平台X發文確認「我們剛剛正式推出Gemini API的Batch Mode,不只處理費用減半,還支援一次排入數十億tokens的龐大請求。」此一功能特別適合處理如生成式AI工具的內容批次輸出、教育與研究機構的模型評估實驗、企業內部大量語言處理、轉錄與翻譯需求,以及廣告影片標記、文件分類等需要高頻率處理的大型任務情境,能大幅提升處理效率並有效降低整體成本。
Google表示,批次模式將於今日起全面開放所有Gemini API使用者,並將持續擴展更多支援模式與資源分配策略,未來還計畫引入進一步的任務排程優化與彈性排程API。