Gemini 2.5推出「隱性快取」 token成本降低75%

▲▼             。(圖/Google)

▲Gemini 2.5推出隱性快取,開發者成本壓力再減輕。(圖/Google)

記者吳立言/綜合報導
Google旗下的Gemini API今(9日)正式宣布,Gemini 2.5系列模型現已支援「隱性快取(Implicit Caching)」,為開發者提供更高效、低成本的模型請求機制,無須額外設定快取流程,即可享受高達75%的token成本折扣。

Google產品經理Logan Kilpatrick表示,自2024年5月引入「顯性快取(Explicit Caching)」後,開發者已能節省重複上下文處理所產生的大量成本。如今進一步透過隱性快取,Gemini模型將自動辨識是否與過往請求具有相同開頭內容,若符合條件,將自動判定為快取命中(cache hit),並回饋同等比例的成本折扣。

[廣告] 請繼續往下閱讀.

※怎麼做?善用 prompt 結構設計以觸發快取
開發者若希望提高快取命中率,建議將提示詞(prompt)前段設定為固定內容,例如系統指示、固定背景敘述等,再於末端加入使用者問題或其他變動資訊,藉此提升請求命中快取的機會。

此外,Google也調降快取啟用門檻,讓更多請求受惠於此機制:

◆Gemini 2.5 Flash:最低請求長度降至1024 tokens

◆Gemini 2.5 Pro:最低請求長度降至2048 tokens

[廣告] 請繼續往下閱讀..

※如何追蹤快取使用量?
自即日起,使用Gemini 2.5的開發者可透過使用紀錄中的「cached_content_token_count 」欄位查詢實際快取命中的token數量,並確認相對應的成本是否已有折扣回饋。若開發者仍有明確的快取需求,Google建議繼續使用既有的顯性快取API,以掌控快取生命週期與使用策略。

Google表示,將持續強化模型運算效能與成本優化策略,並鼓勵開發者提供更多回饋意見,以共同推進AI開發成本的「帕累托邊界(Pareto Frontier)」,讓模型變得更省成本但效能依然好,是一種在成本與效能之間達到最優平衡的進展。