Gemini 2.5推出「隱性快取」　token成本降低75%

2025年05月9日 11:16

▲Gemini 2.5推出隱性快取，開發者成本壓力再減輕。（圖／Google）

記者吳立言／綜合報導
Google旗下的Gemini API今（9日）正式宣布，Gemini 2.5系列模型現已支援「隱性快取（Implicit Caching）」，為開發者提供更高效、低成本的模型請求機制，無須額外設定快取流程，即可享受高達75%的token成本折扣。

Google產品經理Logan Kilpatrick表示，自2024年5月引入「顯性快取（Explicit Caching）」後，開發者已能節省重複上下文處理所產生的大量成本。如今進一步透過隱性快取，Gemini模型將自動辨識是否與過往請求具有相同開頭內容，若符合條件，將自動判定為快取命中（cache hit），並回饋同等比例的成本折扣。

[廣告] 請繼續往下閱讀.

※怎麼做？善用 prompt 結構設計以觸發快取
開發者若希望提高快取命中率，建議將提示詞（prompt）前段設定為固定內容，例如系統指示、固定背景敘述等，再於末端加入使用者問題或其他變動資訊，藉此提升請求命中快取的機會。

此外，Google也調降快取啟用門檻，讓更多請求受惠於此機制：

◆Gemini 2.5 Flash：最低請求長度降至1024 tokens

◆Gemini 2.5 Pro：最低請求長度降至2048 tokens

[廣告] 請繼續往下閱讀..

※如何追蹤快取使用量？
自即日起，使用Gemini 2.5的開發者可透過使用紀錄中的「cached_content_token_count 」欄位查詢實際快取命中的token數量，並確認相對應的成本是否已有折扣回饋。若開發者仍有明確的快取需求，Google建議繼續使用既有的顯性快取API，以掌控快取生命週期與使用策略。

Google表示，將持續強化模型運算效能與成本優化策略，並鼓勵開發者提供更多回饋意見，以共同推進AI開發成本的「帕累托邊界（Pareto Frontier）」，讓模型變得更省成本但效能依然好，是一種在成本與效能之間達到最優平衡的進展。