Gemini 2.5強化「對話式影像分割」　讓AI真正「看懂」你說的話

▲▼ 。（圖／Google）

▲管理人員輸入「標出沒有戴安全帽的人」，AI即能幫助辨識潛在風險。。（圖／Google）

記者吳立言／綜合報導

Google今（22日）發表了一項讓人眼睛一亮的新功能：旗下的Gemini 2.5模型現在可以「聽懂你怎麼描述畫面」，並把對應的東西標示出來。這種叫做「對話式影像分割（Conversational Image Segmentation）」的新技術，讓電腦不再只是辨認「這是貓、那是狗」，而是能理解像「拿著雨傘的人」或「需要清理的地方」這種更貼近人類語言的敘述。

過去的影像AI模型，只能依靠固定的標籤來辨認東西，例如「車子」或「花」。但現在，Gemini能根據自然語言的指令，辨認圖中物體之間的關係、特徵差異，甚至抽象的概念，還能理解多種語言，辨識圖片內的文字。
Gemini 2.5 能理解的影像描述類型包括：

[廣告]請繼續往下閱讀...

物件之間的關係：像是「拿雨傘的人」、「第三本書」或「最枯萎的花」。

條件與邏輯：例如「素食的食物」或「沒坐著的人」。

抽象概念：像是「混亂的區域」或「需要打掃的地方」這種沒有明確形狀的東西。

圖片中的文字：在糕點櫃前說「開心果巴克拉瓦」，它會讀取標籤找到正確那一塊。

多語言指令：不只英文，說法文也通，例如「請用法文標示圖中所有食物」。

這些功能的厲害之處在於，它不需要你學習什麼專業選取工具，只要用平常的講話方式，就能讓 AI 自動幫你「圈出你想要的東西」。

這樣的進展將為許多日常應用帶來便利。例如，平面設計師不需要再用滑鼠一筆筆勾選畫面，只需說出「建築物的陰影」，AI就能立即幫你選好區域。又或是在工廠、工地，管理人員可以直接輸入「標出沒有戴安全帽的人」，AI即能幫助辨識潛在風險。而在保險理賠領域，當調查人員輸入「找出有風災損傷的房屋」，AI也能準確分析畫面細節，例如屋瓦凹陷或牆面破損等，區分出真正的損壞而不是反光或污漬。
而對開發者來說，這項技術帶來的最大好處是使用起來既靈活又簡單。它讓開發者不再受限於預設的標籤分類，可以依照實際產業需求，用更自然、更具彈性的語言來描述查詢內容。同時，透過單一API就能直接開始使用，無需自行訓練或管理多個模型，大幅降低開發門檻，讓更多人能輕鬆導入影像理解功能。

現在就可以在Google的AI Studio裡體驗互動式影像理解 demo，也可以用Python教學版Colab練習，還有開發文件和開發者論壇可供使用與討論。